Da dove vengono prese le immagini dei CAPTCHA?

Buona parte delle immagini che vengono utilizzate nei test CAPTCHA provengono da Google Street View. Ecco a cosa servono.

Vogliamo andare oltre il web: partecipa alla Missione Cultura

A cura di Giuseppe Servidio

Immagine — Esempi di CAPTCHA. Credit: Google.

«Seleziona tutte le immagini con un autobus». Chissà quante volte vi sarà capitato di dover superare una verifica di sicurezza online, il cosiddetto CAPTCHA, e dover selezionare tutti i riquadri contenenti un autobus, dei semafori, delle strisce pedonali, o una bicicletta. Vi siete mai chiesti da dove provengano queste fotografie e perché ci vengano sottoposte? Molte delle immagini utilizzate provengono da Google Street View. Questi test servono a bloccare l'accesso ai bot, cioè programmi automatizzati progettati per compiere azioni ripetitive e spesso malevole.

Il sistema originale è stato ideato nel 2007 da ricercatori della Carnegie Mellon University ed è diventato proprietà di Google nel 2009, con l’acquisizione della società reCAPTCHA Inc.. Nelle sue prime incarnazioni, il sistema non utilizzava fotografie, ma si basava interamente sull'interpretazione di immagini contenenti caratteri tipografici volutamente distorti.

L'obiettivo era sfruttare le capacità visive umane per migliorare la tecnologia OCR (Optical Character Recognition), ovvero il riconoscimento ottico dei caratteri, facendo trascrivere agli utenti parole difficili da riconoscere automaticamente, così da addestrare i sistemi di riconoscimento ottico dei caratteri. Stando a quanto dichiarato da TechCrunch in un articolo del 2012, «il sistema è progettato per ridurre lo spam e le frodi, ma contribuisce anche a digitalizzare il testo dei materiali stampati, come libri e giornali. Google utilizza reCAPTCHA, ad esempio, per digitalizzare i contenuti di Google Libri e degli archivi di Google News».

A partire dal 2012, l'approccio è mutato con l'introduzione di fotografie estratte dal progetto Google Street View. Dopo le prime avvisaglie della novità riguardante la presenza di immagini nei CAPTCHA, un portavoce Google aveva confermato la novità con la seguente dichiarazione:

[In Google] estraiamo dati come nomi di strade e segnali stradali dalle immagini di Street View per migliorare Google Maps con informazioni utili come indirizzi e posizioni di attività commerciali. In base ai dati e ai risultati di questi test reCAPTCHA, determineremo se l'utilizzo delle immagini possa essere un metodo efficace anche per perfezionare ulteriormente i nostri strumenti di contrasto agli abusi online causati da bot e algoritmi.

Alcuni esperti avevano persino ipotizzato che l'interazione degli utenti nel riconoscere semafori, strisce pedonali, veicoli, etc, servisse ad addestrare gli algoritmi di intelligenza artificiale alla base del sistema di guida autonoma di Waymo, un'azienda sussidiaria di Google, ma attorno alla metà del 2021 rappresentanti dell'azienda avevano dichiarato a Vox che «l'azienda non utilizza questi dati di immagine per addestrare le proprie auto autonome».

non perderti questo articolo

L’AI sa riconoscere strisce pedonali e semafori per risolvere i test CAPTCHA

Fonti

Blog sulla sicurezza di Google Vox TechCrunch The Register