Come funziona l’antispam reCAPTCHA


Ho trovato questo interessante articolo che spiega – in italiano – come funziona il plug in antispam reCAPTCHA (usato in questo ed altri blog sulla piattaforma noblogs per arginare le tonnellate di spam che infestano il network) e visto che magari la gente che legge questo blog non lascia i commenti perchè non ha capito come funziona ecco delle delucidazioni sul meccanismo informatico del plug in…

THX


fonte: http://www.levysoft.it/archivio/2007/05/29/recaptcha-il-primo-sistema-captcha-antispam-collaborativo-per-salvare-migliaia-di-libri-antichi-sfruttando-le-150000-ore-che-ogni-giorno-luomo-passa-ad-interpretare-gli-antispam/

reCaptcha:
il primo sistema captcha antispam collaborativo per salvare migliaia di
libri antichi sfruttando le 150.000 ore che ogni giorno l’uomo passa ad
interpretare gli antispam

reCAPTCHAEcco un sistema davvero geniale di fare captcha collaborativo: si chiama reCAPTCHA e sfrutta con maggiore produttività le 150.000 ore che ogni giorno l’uomo passa ad interpretare gli antispam!
Innanzitutto, però, occorre brevemente spiegare cosa sia un captcha: prendendo spunto dalle teorie di Turing,
il test captcha richiede ad un utente di scrivere quali siano le
lettere o numeri presenti in una immagine che appare distorta o
offuscata, in modo da discriminare se l’utente sia un umano o un
computer (più precisamente un bot di spam). Di solito, li troviamo nei form dei commenti dei blog o nelle pagine di registrazione di servizi web.
Pensate che, ogni giorno, 60 MILIONI di CAPTCHA sono risolti da esseri umani in tutto il mondo; considerando che ogni utente spende circa 10 secondi per leggere, interpretare e scrivere il captcha, abbiamo 150.000 ore di lavoro uomo che andrebbero inutilmente sprecate!

Ebbene, grazie a Daniele, ho scoperto che una società ha realizzato reCAPTCHA, un sistema captcha che sfrutta il lavoro collettivo, reindirizzando produttivamente le 150.000 ore al giorno, per digitalizzare libri antichi della Internet Archive!

reCAPTCHA
Pare, infatti, che quando si scansiona un libro antico in maniera automatica, molto spesso il programma OCR incaricato di convertire le immagini digitalizzate in testo, non riesce nel suo lavoro, sia a causa dell’età del libro sia a causa della qualità della scansione.
Qualcuno potrebbe obiettare dicendo che si potrebbe benissimo lasciare
il libro nel formato immagine (come il TIF che è adatto per la
conservazione di più immagini in un solo file): in realtà ciò è
sconsigliato perché, oltre ad occupare molto più spazio di un semplice
testo in ascii, il contenuto non può essere ricercato e analizzato
completamente, rendendo di fatto poco utilizzabile la scansione.

reCAPTCHA Quelli di reCAPTCHA, quindi, hanno pensato bene di sfruttare il sistema antispam per decifrare quelle parole che risultano incomprensibili ad un sistema computerizzato. Ovviamente, la domanda nasce spontanea:
“Ma se il computer non sa a che parola corrisponde l’immagine
(visto che non è riuscito a digitalizzarla) come fa a capire se la
corrispondenza è giusta?”

Ebbene, anche a questo, vi è una soluzione che, almeno a mio parere, ha una buona valenza statistica: reCAPTCHA invia all’utente due parole:
una è quella che non riesce a leggere mentre l’altra è una parola
conosciuta. Ad entrambe vengono aggiunte linee e sono distorte alla
stessa maniera, per cui, se l’utente riesce a leggere con esattezza la parola conosciuta (che è possibile verificare) possiamo essere certi (con un minimo margine di errore) che anche quella sconosciuta sia esatta!

In questo modo, oltre a proteggere il proprio sito dallo SPAM è
possibile contribuire alla digitalizzazione di migliaia di libri
antichi che altrimenti andrebbero persi! In pratica, si mette in condivisione l’enorme archivio di conoscenze umane per digitalizzare i libri scritti prima dell’avvento del computer.

Ma i vantaggi non finiscono qui: oltre a lasciare il carico (seppur
minimo) per la creazione delle immagini ai server di reCAPTCHA, questo
servizio web presenta anche un filtro attivo sugli indirizzi IP e sono pronti a garantire il costante aggiornamento della sicurezza del loro sistema,
cosicché se qualche programmatore dovesse riuscire a creare uno spam
bot in grado di leggere le loro immagini distorte (e qui il filtro
sugli indirizzi IP svolge un ruolo determinante), sono pronti in
brevissimo tempo, ad aggiungere ulteriori linee, distorsioni o rumori di fondo, senza dover reinstallare nulla!
Ovviamente, questi aggiornamenti nella protezione del sistema, oltre a
difendere l’utente che si affiderebbe in toto a loro, serve anche a
dare maggiore valenza alle traduzioni:
cosa succederebbe se uno spam bot senza scrupoli, riuscendo a leggere
senza problemi uno delle due parole di reCaptcha (probabilmente quella
conosciuta da reCaptcha, visto che inevitabilmente è la più chiara),
inviasse parole casuali per le traduzioni dei libri antichi?
Si rischierebbe di avere migliaia di libri senza senso per un danno economico, oltre che di immagine e di tempo, enorme!

Il sistema di reCaptcha si presenta, quindi, molto affascinate e un
po’ sulla scia collaborativa di Wikipedia o altri sistemi di social network,
oltre ai vantaggi, può presentare svantaggi se non venisse monitorato
attentamente. In effetti, credo che, se il sistema della registrazione
degli IP con le parole risolte, funziona correttamente, credo che l’unico problema sia la minima percentuale (anche se forse non trascurabile) di errore umano.

Un’altro problema che riscontro è che il servizio prevede solo la visualizzazione di parole inglesi!
Se magari riuscissero a digitalizzare libri antichi italiani, forse
reCaptcha sarebbe benissimo utilizzabile nei blog italiani. E’ anche
vero, però, che molti sistemi captcha sono soliti usare la visualizzazione distorta di lettere scelte casualmente, per cui la presenza della lingua inglese nei captcha potrebbe essere meno dolorosa di quello che si potrebbe pensare.

Per rendere più usabile il sistema è stato previsto anche l’inserimento, per chi non riuscisse a leggere il testo, di un file audio disturbato da dei rumori di fondo, in cui si possono ascoltare 8 numeri da digitare poi nell’apposito campo.
Certo, in questo modo non si aiuta il progetto di digitalizzazione dei
libri antichi, ma si rende veramente universale il servizio!

Se volete usare reCaptcha, basta andare nella pagina delle risorse, e potete trovare 3 soluzioni di implementazione:

Application Plugins

Programming Environment Plugins

API Documentation

[…]


 

Semplice, no? Lasciate dei commenti su questo blog e contribuirete a preservare i libri antichi

😀

saluti dal vostro amichevole vicino….

Comments are closed.