Diese Künstliche Intelligenz hat die nervigen CAPTCHA-Codes gekillt

Das neuronale Netz durchbricht damit eine Barriere, die eigentlich zur Unterscheidung von Mensch und Maschine errichtet wurde. Gefördert wurde das Projekt von Mark Zuckerberg, Elon Musk, Peter Thiel und Jeff Bezos.

|
27 Oktober 2017, 11:08am

Komposition: imago/Entertainment Pictures ; fakecaptcha.com

Während fast jeder Bereich unseres Lebens zunehmend automatisiert wird, versuchen sich die Menschen verzweifelt an die wenigen Dinge zu klammern, in denen uns die Maschinen noch nicht ebenbürtig sind. Roboter haben längst komplizierte Spiele wie Schach und Go gemeistert, können Bücher schreiben und Lügen, bis sich die Balken biegen. Nun ist es einer Künstlichen Intelligenz sogar gelungen, ein Tool zu knacken, das eigens dafür geschaffen wurde, Menschen und Roboter zu unterscheiden: das CAPTCHA.

CAPTCHAs sind diese kleinen, nervigen Rätsel, die einen dazu auffordern, ein verschwommenes Wort abzutippen oder alle Autos in einem Bild zu markieren, um seine menschliche Identität zu verifizieren und sich auf bestimmten Websites anmelden zu können. Die Abkürzung CAPTCHA steht für "Completely Automated Public Turing test to tell Computers and Humans Apart"; auf Deutsch also "vollautomatischer öffentlicher Turing-Test zur Unterscheidung von Computern und Menschen".

Folgt Motherboard auf Facebook, Instagram, Snapchat und Twitter

Laut einer Studie, die gestern im Fachmagazin Science veröffentlicht wurde, ist es einer Künstlichen Intelligenz nun gelungen, verschiedene Typen von CAPTCHAs mit einer Trefferquote von bis zu 66,6 Prozent zu lösen. Zum Vergleich: Menschen haben bei derselben Art von CAPTCHA eine Trefferquote von etwa 87 Prozent. Ein CAPTCHA gilt normalerweise bereits als unbrauchbar, wenn es einem Bot gelingt, es bei einem von hundert Versuchen zu lösen.
So könnte ein CAPTCHA aussehen | Screenshot: fakecaptcha.com

CAPTCHAs wurden in den späten 90ern erfunden, um Online-Betrug und Spam durch Bots zu verhindern. Die Idee war es, ein Rätsel zu schaffen, das für einen Menschen sehr leicht und für einen Computer sehr schwer zu lösen wäre.

Obwohl Computer sehr gut in Mathe sind, ohne große Schwierigkeiten Texte verarbeiten können und immer besser darin werden, Objekte in Fotos und Filmen zu erkennen, bringt es sie völlig aus dem Konzept, wenn diese Abbildungen leicht verzerrt dargestellt werden. Dafür gibt es eine einfache Erklärung: Zwar kann man einen Computer darauf trainieren, den Buchstaben "M" in jeder erdenklichen Schriftart zu erkennen, der Computer kann von diesem Wissen jedoch nicht ableiten, wie ein "M" aussieht, wenn diese Schriftarten verzerrt werden – denn für diese Verzerrungen gibt es nahezu unendliche Möglichkeiten.

Unser menschliches Gehirn hingegen kann auch anhand eines kleinen Datensatzes lernen und daraus weitere Schlüsse ziehen. Diese Fähigkeit unterscheidet uns von Computern und macht uns das Lösen von CAPTCHAs leicht. Doch die im Internet noch immer weit verbreitete Sicherheitsmethode hat sich mit der neuen Studie anscheinend überlebt: Den Forschern des KI-Unternehmens Vicarious gelang es, einen Algorithmus für maschinelles Sehen zu entwickeln, der CAPTCHA-Tests auf Grundlage weniger Beispiele verstehen und lösen kann. Finanziell unterstützt wird Vicarious übrigens von zahlreichen Größen aus der Technikbranche, darunter Mark Zuckerberg, Jeff Bezos, Elon Musk und Peter Thiel.


Auch auf Motherboard: Kampf der Maschinen: Hinter den Kulissen der Roboter-Weltmeisterschaft


Auch anderen Forschern ist es bereits gelungen, Algorithmen auf das Lösen von CAPTCHAs zu trainieren. Doch dafür waren meist Millionen an Beispielen nötig und die KI konnte anschließend nur einen bestimmten CAPTCHA-Typ lösen. Die KI von Vicarious kann hingegen eine Vielzahl an textbasierten CAPTCHAs knacken und ist dabei auch noch effizienter als seine Vorgänger.

Für den Algorithmus nutzte das Team von Vicarious Erkenntnisse aus der "experimentellen Neurowissenschaft", heißt es im Paper. Auf dieser Grundlage entwickelten sie ein sogenanntes Recursive Cortical Network. Dieser Algorithmus wird mit wenigen nicht-verzerrten Textbildern trainiert. Anschließend kann er ein CAPTCHA in verschiedene Formen und Strukturen unterteilen, und bestimmen, welchen Buchstaben aus dem Trainingssatz sie am ähnlichsten sehen. Somit arbeitet das Recursive Cortical Network ganz ähnlich wie das menschliche Gehirn.

Es konnte reCAPTCHAs mit einer Trefferquote von 66,6 Prozent lösen, BotDetect mit 64,4 Prozent, die Rätsel auf Yahoo mit 57,4 Prozent und die von PayPal mit 57,1 Prozent. Für diese Erfolgsquoten benötigte die KI zudem nur sehr kleine Trainingsdatensätze. Um reCAPTCHA zu meistern, wurde der Algorithmus beispielsweise nur mit fünf nicht-verzerrten Beispielen pro Schriftzeichen trainiert.

Andere hochentwickelte neuronale Netze benötigen hingegen Datensätze, die 50.000 mal größer sind und aus tatsächlichen CAPTCHA-Bildern bestehen, anstatt nur einzelne Schriftzeichen zu verwenden. Als Vergleichswert verwendeten die Forscher auch ein anderes Neuronales Netz, das sogar eine Genauigkeit von 89,9 Prozent erreichte. Allerdings brauchte dieses Netz für diese Leistung 2,3 Millionen Beispielbilder. Seine Treffsicherheit ließ deutlich nach, wenn leichte Änderungen am CAPTCHA vorgenommen wurden, beispielsweise wenn der Abstand zwischen den Buchstaben erhöht wurde.

Mit ihrem neuen Algorithmus gelang den Forschern von Vicarious eine deutliche Verbesserung gegenüber früheren Modellen: Statt ihren Algorithmus mit Millionen von Beispielen eines bestimmten CAPTCHA-Typen zu trainieren, entwickelten sie einen Algorithmus, der Schriftzeichen anhand ihrer Form und Struktur im CAPTCHA identifizieren und sie somit "verstehen" kann.

Bei 'Blade Runner' entscheidet der Voightt-Kampf-Test zwischen Mensch und Maschine

Dieser technische Durchbruch bedeutet, dass wir Menschen uns langsam, aber sicher nach anderen Mechanismen umsehen müssen, um zwischen Mensch und Maschine zu unterscheiden. Google hat zu diesem Zweck bereits eine Audioversion der reCAPTCHAs vorgestellt. Allerdings haben Computerwissenschaftler der University of Maryland kürzlich ein Programm namens unCaptcha entwickelt, ein frei verfügbarer Algorithmus, der reCAPTCHAs im Audioformat innerhalb weniger Sekunden mit einer Erfolgsquote von 85 Prozent lösen kann.

Auch wenn CAPTCHAs uns wahrscheinlich noch eine ganze Weile erhalten bleiben, können sie nicht mehr als sicheres Tool gelten, um einen Webseitenbesucher als Menschen zu identifizieren. Vielleicht dauert es nicht mehr lange, bis wir uns einem Voight-Kampff-Test wie bei Blade Runner unterziehen müssen, nur um uns einzuloggen.