FYI.

This story is over 5 years old.

Tech

Die sexuellen Vorlieben von 70.000 OkCupid-Usern wurden gerade geleakt

Einmal mehr machen Sicherheitsforscher darauf aufmerksam, wie fragil der Schutz persönlicher Daten auf Online-Datingportalen ist.
Foto: Shutterstock

Ein Student hat jetzt gemeinsam einem weiteren Forscher Daten von fast 70.000 Usern der Dating-Website OkCupid veröffentlicht. Darunter befinden sich ihre sexuellen Vorlieben, ihre sexuelle Orientierung, ihre Usernamen und weitere Informationen. Kritiker meinen nun, dass man anhand dieser Daten die Nutzer auch konkret identifizieren kann.

Damit stellt sich nun auch die Frage, welche Daten Forscher massenhaft sammeln, weiterverarbeiten und bei Bedarf auch verbreiten dürfen.

Anzeige

Die Informationen, die Nutzer bei OkCupid angeben, sind teilweise öffentlich: Wenn man den Nutzernamen einer Person bei Google eingibt, kann man auf das entsprechende OkCupid-Profil kommen und die angegebenen Informationen einsehen, allerdings nicht alle. Um vollen Zugang zu erhalten, muss man sich bei der Kontaktbörse einloggen. Solche halb-öffentlichen Informationen, die User bei OkCupid und Facebook angegeben haben, können ziemlich heikel sein, wenn sie in einem anderen Kontext genutzt werden—gerade auch wenn man anhand der Daten einzelne Personen identifizieren kann.

„OkCupid ist eine attraktive Website, um sich Daten zu beschaffen", so Emil O. W. Kirkegaard und Julius D. Bjerrekær in ihrem Paper „The OKCupid dataset: A very large public dataset of dating site users". Kirkegaard ist laut eigenen Angaben Masterstudent der Universität Aarhus in Dänemark, Bjerrekær kommt von der Universität in Aalborg, ebenfalls in Dänemark.

Zwischen November 2014 und März 2015 sammelten die beiden Forscher die Daten mithilfe eines „Scrapers"—einem Programm, das bestimmte Teile einer Website extrahiert und speichert. Dabei wurden zufällig Profile von Usern ausgewählt, die eine Vielzahl der Multiple-Choice-Fragen von OkCupid beantwortet hatten. Darin wird zum Beispiel gefragt, ob man jemals Drogen genommen hat, ob man es mag, beim Sex gefesselt zu werden, oder was die User am romantischsten finden.

Anzeige

„OkCupid ist eine attraktive Website für die Beschaffung von Daten."

Die beiden Dänen haben Nutzername, Alter, Geschlecht, Ort, Angaben zu Religion und Sternzeichen, Anzahl der Fotos und weitere Nutzerinformationen gesammelt. Außerdem haben sie die Antworten zu den 2.600 beliebtesten Fragen auf der Website gesammelt. In ihrem Paper haben Kirkegaard und Bjerrekær versucht herauszufinden, ob sich aus den Antworten der User ihre kognitiven Fähigkeiten ablesen lassen können. Auf der Website Open Science Framework (https://osf.io/p9ixw/) wird als dritter Autor außerdem Oliver Nordbjerg angegeben.

All das sind Informationen, die OkCupid-Usern zugänglich sind, sobald sie auf der Website eingeloggt sind. Man könnte diese Daten also als „öffentlich" bezeichnen, da dabei keine Privatnachrichten oder ähnliches untersucht wurden.

„Wir hoffen, dass andere Forscher dieses Datenset für ihre eigenen Zwecke nutzen", heißt es in dem Paper.

Viele Wissenschaftler sind allerdings weniger erfreut, dass diese Daten veröffentlicht wurden.

Scott B. Weingart, Spezialist für Digital Humanities an der Carnegie Mellon University (CMU), erklärte in einem Tweet, dass er mit 90-prozentiger Treffsicherheit anhand persönlicher Angaben und Angaben zu sexuellen Vorlieben über 10.000 OkCupid-Usern ihre echten Namen zuordnen könne.

With these details, I roughly estimate I could ~90% accurately connect sexual preferences & histories to real names of >10,000 OkC users.
— Scott B. Weingart (@scott_bot) 11. Mai 2016

Anzeige

„Die Daten sind vielleicht ,öffentlich' (auch wenn man sich dafür einloggen und den Nutzungsbedingungen zustimmen muss), aber damit ist noch lange niemand von einer moralischen Verantwortung freigesprochen", so Rasmus Munksgaard, ein Forscher, der selbst Darknet-Marktplätze mithilfe von Scraping durchforstet hat, gegenüber Motherboard in einer Direktnachricht über Twitter.

„Mit den Daten können sehr sensible Informationen sichtbar gemacht und Personen konkret identifiziert und zugeordnet werden und die Nutzer können auch nichts dagegen machen", so Munksgaard weiter.

Was Kirkegaard und Bjerrekær gemacht haben, war nicht illegal, zeigt aber vor allem, dass die Ethikkommissionen in der Forschung es bisher auch noch nicht geschafft haben, sich mit dem Thema Scraping von Onlinedaten auseinanderzusetzen.

„Etwas so altes und großes, wie die Welt der Universitäten und der Forschung, entwickelt sich langsam und kann nur schwer gezielt seine Richtung ändern", so Scott Weingart in einer E-Mail gegenüber Motherboard. „Wir wollen nichts überstürzen, sondern zuerst die Grundlagen und die ethischen Fragen verstehen. Hier hat sich die Welt schneller entwickelt als das Universitätssystem, und wir versuchen da jetzt krampfhaft aufzuholen."

Laut Aussage von OkCupid haben die beiden Dänen mit ihrer Forschung gegen die Nutzungsbedingungen der Website verstoßen.

Andere Studien, die auch mit Daten aus öffentlich zugänglichen Quellen gearbeitet haben, versuchten durch spezielle Maßnahmen die Privatsphäre der User zu schützen. In einem Paper von 2008, in dem von Facebook gesammelte Informationen veröffentlicht wurden, haben die Autoren alle Namen und zugewiesenen Identifikationsnummern entfernt. Wollen andere Forscher diese Daten nutzen, müssen sie zudem konkreten Nutzungsbedingungen zustimmen.

„Mit den Daten können sehr sensible Informationen sichtbar gemacht und Personen konkret identifiziert und zugeordnet werden und die Nutzer können auch nichts dagegen machen."

Die Daten von OkCupid wurden jedoch anscheinend in keiner Weise anonymisiert.

In einer E-Mail an Motherboard erklärt Kirkegaard: „Ich würde gern mit Interviews warten, bis sich die ersten Wellen gelegt haben. Ich will das Feuer nicht noch weiter anfachen, gerade auch nicht bei denen, die jetzt laut nach sozialer Gerechtigkeit rufen."

Nachdem das Paper Anfang der Woche veröffentlicht wurde, gibt es mittlerweile eine passwortgeschütze Version online. Aber wie Motherboard herausgefunden hat, ist es immer noch möglich, an das frei zugängliche Dokument heranzukommen, wenn man sich durch die verschiedenen Bearbeitungen auf der Website klickt.