GettyImages-1284269034
Jeremy Moeller / Getty Images
Tech

AI is Wikipedia aan het verscheuren

Vrijwilligers die de digitale encyclopedie beheren zijn verdeeld over hoe er moet worden omgegaan met AI-gegenereerde content en misinformatie.

Nu generatieve kunstmatige intelligentie alle aspecten van cultuur aan het doordringen is, zijn de mensen die Wikipedia beheren verdeeld over hoe ze nu het beste verder kunnen gaan. 

Tijdens een recente communautaire oproep werd het duidelijk dat er een verdeling in de gemeenschap is over de vraag of er wel of geen large language-modellen moeten worden gebruikt om content te genereren. Hoewel sommige mensen stellen dat tools zoals ChatGPT van OpenAI zouden kunnen helpen met het genereren en samenvatten van artikelen, blijven anderen wantrouwig. 

Advertentie

De zorg is dat machine-gegenereerde content gebalanceerd moet worden en een hoop menselijk nakijkwerk vereist, en dat het minder bekende wiki’s met slechte content zou overspoelen. Hoewel AI-generatoren bruikbaar zijn om geloofwaardige, mensachtige tekst te schrijven, zijn ze ook geneigd om foutieve informatie toe te voegen, en zelfs onbestaande bronnen en academische artikelen te citeren. Dit heeft vaak tekstsamenvattingen tot gevolg die er nauwkeurig uitzien, maar die bij nader inzien volledig gefabriceerd blijken te zijn. 

Amy Bruckman is een professor en senior voorzitter van de School of Interactive Computing bij het Georgia Institute of Technology en auteur van Should You Believe Wikipedia?: Online Communities and the Construction of Knowledge. Net als mensen die kennis sociaal construeren, zegt ze, zijn large language-modellen slechts zo goed als hun vermogen om feit van fabel te onderscheiden. 

Advertentie

“Onze enige toevlucht is om large language-modellen te gebruiken, maar hun output te bewerken en iemand de bronvermelding na te laten gaan,” vertelt Bruckman aan Motherboard.

Het duurde niet lang voor onderzoekers om uit te vogelen dat ChatGPT van OpenAI een verschrikkelijke fabricator is, iets wat ook de ondergang betekent voor studenten die volledig op  de chatbot bouwen om hun essays te schrijven. Soms verzint het artikelen en hun auteurs. Of het combineert de namen van minder bekende academici met het volste vertrouwen met die van meer bekende academici. OpenAI heeft zelfs gezegd dat het model “hallucineert” wanneer het feiten verzint – een term die door sommige AI-experts wordt bekritiseerd als een manier voor AI-bedrijven om onder de aansprakelijkheid voor hun misinformatie-verspreidende machines uit te komen. 

“Het risico voor Wikipedia is dat mensen de kwaliteit omlaag zouden kunnen halen door er dingen bij te zetten die ze niet hebben gecheckt,” voegt Bruckman toe. “Ik zou zeggen dat er niks mis mee is om het als een eerste versie te gebruiken, maar elk punt moet worden geverifieerd.”

Advertentie

De Wikimedia Foundation, de nonprofit-organisatie die achter de website zit, wil tools bouwen die het voor vrijwilligers makkelijker maken om AI-gegenereerde content te herkennen. Intussen is Wikipedia bezig met het opstellen van een beleid dat de grenzen bepaalt voor hoe vrijwilligers large language-modellen kunnen gebruiken om content te maken. 

In het huidige conceptbeleid staat dat iedereen die onbekend is met de risico’s van large language-modellen ze beter niet kan gebruiken om Wikipedia-content te maken, omdat het de Wikimedia Foundation kwetsbaar maakt voor klachten van smaad en schendingen van auteursrecht – dingen waar de nonprofit tegen beschermd is, maar de vrijwilligers van Wikipedia niet. Deze large language-modellen bevatten ook impliciete bevooroordeeldheden, wat vaak resulteert in content die een bias heeft tegen gemarginaliseerde en ondervertegenwoordigde groepen

De gemeenschap is ook verdeeld over of large language-modellen op Wikipedia-content getraind zouden mogen worden. Hoewel open toegang een hoeksteen van de ontwerpprincipes van Wikipedia is, maken sommigen zich zorgen dat onbeperkte scraping van internetdata ervoor zorgt dat AI-bedrijven zoals OpenAI het open web kunnen uitbuiten om gesloten commerciële datasets voor hun modellen te maken. Dit wordt zeker een probleem als de Wikipedia-content zelf AI-gegenereerd is, waardoor er een feedbackloop van mogelijk bevooroordeelde informatie zou kunnen ontstaan als het niet in de gaten wordt gehouden. 

Advertentie

In een suggestie die op de mailinglist van Wikipedia werd gepost werd het idee geopperd om BLOOM te gebruiken, een large language-model dat vorig jaar onder de nieuwe Responsible AI Licence (RAIL) is uitgebracht en dat “een open toegang-aanpak tot licentiëring combineert met gedragsrestricties die bedoeld zijn om een visie van verantwoordelijk AI-gebruik toe te passen.” Net als sommige versies van de Creative Commons-licentie maakt de RAIL-licentie het mogelijk om het AI-model op flexibele wijze te gebruiken terwijl het ook een paar beperkingen oplegt – bijvoorbeeld, verplichten dat afgeleide modellen duidelijk vermelden dat hun output AI-gegenereerd is, en dat alles wat op basis van die modellen wordt gebouwd aan dezelfde regels onderhevig is. 

Mariana Fossatti, een coördinator bij Whose Knowledge? – een wereldwijde campagne die is gericht op het toegankelijk maken van kennis op het internet in diverse geografische locaties en talen – zegt dat large language-modellen en Wikipedia in een feedbackloop zitten die nog meer vooroordelen introduceren. 

“We hebben deze enorme hoeveelheid kennis in meer dan 300 talen,” vertelt Fossatti aan Motherboard. “Maar deze 300 talen zijn natuurlijk ook erg ongelijk. De Engelse Wikipedia heeft veel meer content dan andere versies, en we voeden AI-systemen met deze kennisbank.” 

Advertentie

AI is niet bepaald iets nieuws voor Wikipedianen – geautomatiseerde systemen worden al langer op de site gebruikt om taken als machine translation en het verwijderen van vandalisme uit te voeren. Maar er zijn vrijwilligers die al lang werkzaam zijn die minder warm lopen voor het idee om het gebruik van AI op het platform uit te breiden. 

In een statement van de Wikimedia Foundation liet de ngo weten dat AI een kans biedt om het werk van vrijwilligers op Wikipedia en Wikimedia-projecten te helpen schalen. 

“Afgaande op de feedback van vrijwilligers zijn we aan het kijken naar hoe deze modellen ons kunnen helpen om kenniskloven te overbruggen en toegankelijkheid van kennis en deelname te vergroten,” vertelde een woordvoerder van de Wikimedia Foundation aan Motherboard in een statement. “Menselijke betrokkenheid blijft echter de belangrijkste bouwsteen van het kennis-ecosysteem van Wikimedia. AI werkt het beste als een uitbreiding van het werk dat mensen voor ons project verrichten.”

Op het moment van schrijven bevat het conceptbeleid een punt dat expliciet vermeldt dat bronvermelding in de tekst vereist is voor AI-gegenereerde content. Voor Bruckman is er niet veel verschil tussen de problemen die bij large language-modellen kunnen komen kijken en opzettelijke en kwaadwillige pogingen om Wikipedia-pagina’s te bewerken. 

“Naar mijn mening verschilt het niet zo veel van het bestrijden van vandalisme,” voegt Bruckman toe. “We hebben strategieën om dat tegen te gaan. Ik zie ongecontroleerde AI-gegenereerde content als een vorm van vandalisme, en we kunnen dezelfde technieken die we gebruiken voor het bestrijden van vandalisme op Wikipedia toepassen om AI-geproduceerde troep te bestrijden.”

Advertentie

In een recente e-mail aan de listserv van de Wikimedia Foundation merkte Selena Deckelmann, Chief Product and Technology Officer bij de organisatie, op dat er complexe problemen bestaan tussen vrijwilligers en het personeel van de organisatie over onafgemaakte technische migraties, die het gemeenschappelijke proces van besluitvorming onder de vrijwilligers beïnvloeden. 

“Als we dergelijke grote projecten willen afmaken, moeten we onderhoud en technische migratie prioriteit kunnen geven en er oké mee zijn dat we niet aan andere dingen werken,” zei Deckelmann in de e-mail die Motherboard heeft verkregen. 

Maar tot dat gebeurt zegt Deckelmann dat het belangrijk is dat editors en vrijwilligers hun ogen open blijven houden.

“Content is alleen zo betrouwbaar als het aantal mensen die het met robuuste citatiepraktijken hebben geverifieerd,” zegt Bruckman. “Ja, generatieve AI heeft geen robuuste citatievoorkeuren, dus we moeten het nagaan. Ik denk niet dat we mensen simpelweg kunnen vertellen om het niet te gebruiken, dat gaat gewoon niet gebeuren. Ik bedoel, als ik kon zou ik de geest wel terug in de fles doen. Maar aangezien dat niet mogelijk is, is dingen checken het enige wat we kunnen doen.”


Dit artikel verscheen oorspronkelijk op Motherboard.

Volg VICE België en VICE Nederland ook op Instagram.