Questa intelligenza artificiale riesce ad aggirare i CAPTCHA

Una nuova rete neurale ha aggirato uno dei pochi modi che abbiamo per capire se dietro uno schermo c'è un umano o una macchina.

di Daniel Oberhaus

27.10.17

Mentre qualunque aspetto della vita sta diventando sempre più automatizzato, gli umani stanno cercando conforto nelle attività che ci differenziano dai nostri doppelganger artificiali. Anche se i robot sono capaci di imparare a diventare dei campioni di giochi come Go, non saranno comunque mai capaci di scrivere un libro, fare l'amore, non potranno mai diventare cittadini dell'Arabia Saudita o apprezzare la bellezza di un panorama naturale, giusto?

Sbagliato.

È con grande dispiacere che devo annunciarvi che un'intelligenza artificiale è finalmente riuscita ad hackerare l'unico strumento diffuso creato letteralmente per distinguere gli umani dai robot: il CAPTCHA.

I CAPTCHA sono quei noiosi box pieni di lettere più o meno leggibili che a volte appaiono in giro per internet e che chiedono all'utente di riscrivere il testo che vede a schermo, o di cliccare su tutte le automobili in una certa foto. Secondo una ricerca pubblicata ieri su Science, un nuovo tipo di intelligenza artificiale è stata capace di risolvere certi tipi di capaci con una precisione del 66.6 percento. Per metterla in prospettivi, la precisione che gli umani dimostrano quando devono risolvere i CAPTCHA è dell'87 percento, ed è così perché per ogni CAPTCHA ci sono più interpretazioni considerate accettabili — Inoltre, un CAPTCHA è considerato rotto se un bot qualsiasi riesce a risolverlo anche solo l'1 percento delle volte.

I Completely Automated Turing tests to tell Computers and Humans Apart, ovvero i CAPTCHA, sono stati inventati a fine 1990 nel tentativo di trovare un modo di prevenire le truffe e lo spam diffuso dai bot. L'idea alla base era di creare un puzzle semplice per un essere umano ma difficile per un computer.

Anche sei i computer sono molti bravi in matematica, non hanno grandi problemi a leggere del testo normale e stanno diventando sempre più bravi a riconoscere determinati oggetti all'interno di immagini ferme e in movimento, quando queste immagini sono lievemente distorte un'impresa semplice diventa un dramma. Il motivo per cui succede questo è perché, anche se un computer può essere addestrato a riconoscere la lettera 'M' in qualunque font immaginabile, non è in grado di astrarre i caratteri della 'M' per riconoscerla anche dopo che lo stesso font originale viene distorto.

L'abilità di imparare e astrarre a partire da una breve serie di esempi è una delle cose che differenzia in maniera radicale i nostri grossi cervelli da scimmie dai processori di un computer e ci permette di risolvere i CAPTCHA facilmente. O perlomeno così si pensava. Come spiegato su Science, dei ricercatori dell'azienda di sviluppo per intelligenze artificiali Vicarious, finanziata da Mark Zuckerberg e Jeff Bezos, hanno sviluppato un algoritmo di machine vision probabilistico che è stato capace di comprendere e superare un test CAPTCHA perché si è rivelato in grado di astrarre delle regole di interpretazione a partire da una breve serie di esempi.

Altri ricercatori hanno addestrato degli algoritmi di deep learning fino a renderli capaci di superare un CAPTCHA, ma questo approccio spesso richiede milioni di esempi descritti per addestrare a dovere l'algoritmo e funziona solo su un tipo di CAPTCHA particolare. L'AI di Vicarious, dall'altro lato, può superare una serie piuttosto eterogenea di CAPTCHA visuali e lo riesce a fare senza troppa difficoltà.

I ricercatori di Vicarious hanno sviluppato un algoritmo probabilistico chiamato Recursive Cortical Network, in grado di prendere un CAPTCHA e di interpretarlo come una serie di forme e caratteristiche visive (come la morbidezza della superficie delle lettera) a partire da una serie di immagini di addestramento di testo pulito.

Le altre reti neurali sono in grado di riconoscere il testo in un CAPTCHA dopo che le parole e le lettere sono state processate e catalogate da un umano in milioni di esempi di addestramento. Il Recursive Cortical Network, però. lavora in maniera molto più simile a come un cervello umano risponderebbe normalmente a degli impulsi visivi. L'RCN genera dei modelli basati sulle curve delle lettere e sui dettagli visivi di essere a partire da una serie di lettere d'esempio non distorte (in questo caso, derivate dal font Georgia) e dopodiché sfrutta questi modelli a livello probabilistico per determinare quale lettera stia guardando quando osserva una frase CAPTCHA distorta.

Tecnologia

L'Intelligenza Artificiale Collettiva è l'ultimo stadio dell'evoluzione dei robot

Gianmarco Veruggio

9.10.17

Come scritto dai ricercatori nel paper, un CAPTCHA è da considerarsi rotto se una macchina può risolverlo anche soltanto l'1 percento delle volte. L'algoritmo di Vicarious è stato presentato a una vasta varietà di diversi stili di CAPTCHA ed ha registrato dei tassi decisamente alti di precisione. Ha risolto un reCAPTCHA con una precisione del 66.6 percento, BotDetect con il 64.4 percento, Yahoo con il 57.4 percento di precisione e Paypal con il 57.1 percento: tutto con una quantità "decisamente ristretta di dati di addestramento." Per reCAPTCHA, per esempio, l'algoritmo era stato addestrato a partire da soltanto 5 esempi di lettera non distorta per carattere.

Altre reti neurali allo stato dell'arte richiederebbero training set 50.000 volte più grandi e sono basati su delle stringhe di CAPTCHA vere e proprie, invece che su caratteri puliti. Come benchmark, gli sviluppatori hanno usato un'altra rete neurale per ottenere una precisione dell'89.9 percento — ma per raggiungere questo tasso di precisione si è dovuta addestrare su 2.3 milioni di immagini, e la stessa precisione è crollata non appena veniva apportata qualche piccola modifica allo stile del CAPTCHA, come aumentare leggermente lo spazio tra le lettere.

In pratica, invece che avere un algoritmo specifico per ogni CAPTCHA, l'AI di Vicarious può "capire" con che tipo di CAPTCHA ha a che fare ogni volta che deve risolverne uno.

Anche se i CAPTCHA probabilmente continueranno a essere usati come prima linea di difesa su internet nel prossimo futuro, difficilmente potranno continuare a garantire il loro funzionamento negli anni a venire. Prima di quanto crediamo potremmo finire per essere sottoposti a un test di Voight-Kampff di Blade Runner anche solo per accendere il computer.

Seguici su Facebook e Twitter

Tagged:AIcaptcharecaptchaUniversity of MarylandRecursive Cortical Networkintelligenza artificialeTechMotherboard