Ein Reddit-Analyst hat 1,7 Milliarden Posts zum Download verfügbar gemacht

Die schiere Masse geballten Redditwissens übersteigt die magische Marke von 1 Terrabyte.

von Johannes Hausen

13.7.15

Foto: Eva Blue

Was die Bibliothek von Alexandria für die Ptolemäer war, könnte der Datenschatz, den Jason Baumgartner in mühevoller Sisyphosarbeit geborgen und letzte Woche veröffentlicht hat, für die Reddit-User werden.

14 Monate lang schickte der Datenanalyst alias Stuck_In_the_Matrix Systemaufruf um Systemaufruf an die Reddit-API und archivierte so eine Gesamtmenge von 1,7 Milliarden Kommentaren im wohl schlauesten Internetforum unserer Zeit—Denkt nur an großartige AMAS wie das der 92-jährigen NS-Zeitzeugin oder der die Diskussion darüber, warum die Alliierten niemals die Schienen nach Auschwitz bombardierten. Klar gab es auch die berüchtigten Beleidigungs- und Beschimpfungs-Subreddits, die schließlich abgeschaltet wurden, doch Reddit bietet noch immer die besten und vor allem unterhaltsamsten Antworten auf einfache Internet-Fragen wie „What's your favorite video that is 10 seconds or less?".

Baumgartner hat jeden einzelnen Redditkommentar aufgezeichnet, der zwischen Oktober 2007 und Mai 2015 gemacht wurde.

Mit anderen Worten: Baumgartner hat—abzüglich einer Menge von ca. 350.000 gelöschten oder in privaten Subreddits gemachten Posts—jeden einzelnen Redditkommentar, der zwischen Oktober 2007 und Mai 2015 gemacht wurde, aufgezeichnet und diese gewaltige Datenmenge in Form von JSON-Objekten per Torrent zum Download zur Verfügung gestellt.

Baumgartners Daten enthalten neben dem Originaltext des Posts auch den Namen des Autors, Scores, Subreddit und die Position innerhalb des Strangs. Bei bis zu 100 Kommentare, die man mit einem API-Call ziehen kann, ließ er dabei rund 86.400 Calls pro Tag ausführen.

Um möglichst vielen Leuten zumindest einen Ausschnitt seiner Arbeit darbieten zu können, bietet Baumgartner über Reddit auch einen Download der Daten für einzelne Monate an. Er hat das Gesamtpaket an geballter Reddit-Power außerdem dem Internetarchiv Archive.org zugespielt, um die schiere Wissensmenge für zukünftige Generationen festzuhalten.

„Ich habe das Projekt gestartet, weil es eine Menge an interessanten und informativen Kommentaren auf Reddit gibt", so Baumgartner gegenüber Motherboard. „Mein Ziel war es, alle Daten in eine große Datenbank zu speisen, damit die Leute sie nach diesen besonderen Posts durchsuchen könnten. Außerdem wollte ich Entwicklern die Möglichkeit geben, mit den Daten ihre eigenen Tools zu kreieren, und sie Studenten zur Forschung zur Verfügung zu stellen."

Bleibt abzuwarten, was die Reddit-Gemeinde (oder andere Forscher, die den Sinn des Lebens im 21. Jahrhundert ergründen) nun mit diesen Daten anstellen wird. Die Daten bietet allemal die Möglichkeit, neue Erkenntnisse über die Entstehung von Trends und das Wesen menschlicher Kommunikation im Online-Bereich zu erlangen.

Und so schlagen die ersten User schon vor, eine Künstliche Intelligenz mit den Informationen zu füttern, damit diese in Zukunft typische Redditposts aus der Sicht eines neuronalen Netzwerks formuliert. #Deepdream im Stil eines Redditor-Bots sozusagen.

Tagged:Big dataRedditKommentarmotherboard showDatenschatzTechMotherboard

FYI.

This story is over 5 years old.

Ein Reddit-Analyst hat 1,7 Milliarden Posts zum Download verfügbar gemacht

Lass dir das Beste von VICE jede Woche per Mail schicken!