FYI.

This story is over 5 years old.

Tech

Dit computerprogramma leert robots kijken

Levan maakt een "visuele encyclopedie van alles" om robots te leren kijken.

Robots en kunstmatige intelligentie zijn supergoed in het snel opzoeken van informatie - herinner je je toen Watson een aantal Jeopardy kampioenen de pan in hakte? Maar ze zijn niet zo goed in het bekijken van iets en om dan te vertellen wat het precies is. Maar een nieuw computerprogramma probeert daar verandering in te brengen - het is de hoop van programmeurs om zo een kunstmatig intelligentieplatform te creëren dat naar een object kan kijken en vervolgens zichzelf alles kan leren wat er te weten valt over dit object.

Advertentie

Zoals ik net zei, mensen (voornamelijk diegenen met een beetje expertise), presteren beter dan machines als het aankomt op weten waar ze naar kijken - het is één van de redenen waarom subreddits, zoals r/Whatsthisbug zo populair zijn. Er is gewoonweg geen goede manier om een foto te nemen en een computer te vragen wat het precies is. Maar de University of Washington's Levan program is systematisch een visuele encyclopedie aan het samenstellen van, vrij letterlijk, alles. Dit om robots op een dag te kunnen laten zien.

Levan is in staat om het internet af te speuren voor een concept, "boot" bijvoorbeeld, en zal een visuele lijst maken van iedere mogelijke variant van boot. Het programma kan onderscheid maken tussen een vissersbootje, een piratenboot, een boevenboot, een gezonken boot, een cruiseschip - je begrijpt het wel. Het doel is om uiteindelijk een programma te maken dat "alles over alles" kan leren. Dus wanneer je een gave auto ziet voorbijrijden en je er een foto van maakt en je de informatie doorspeelt naar de bijbehorende app, je te horen krijgt dat het om een Corvette gaat uit het jaar 1964.

Een aantal voorbeelden van verschillende type "boten" die Levan heeft gevonden. Afbeelding: Levan

"We willen dat het zoekt naar dingen die wij mensen, niet weten te benoemen - we zien misschien een bepaald type stoel, maar we weten niet wat voor soort stoel het is," vertelt Ali Farhadi, een van de onderzoekers die Levan programmeert, tegen mij. "Je kunt er een foto van nemen, en Levan zal het onmiddelijk herkennen als een Barcelona stoel, en je vertellen wie het heeft ontworpen."

Advertentie

Farhadi en zijn collega, Santosh Diwala, hebben een paar dagen geleden een bètaversie van Levan uitgebracht. Op dit moment kan iedereen een "concept" inpluggen - in principe ieder zelfstandig naamwoord, werkwoord of bijvoegelijk naamwoord in de Engelse taal - en Levan zal door het internet heen kruipen om varianten en "subcategorieën" van dat concept te vinden. Wanneer Levan efficiënter wordt, zal het uit zichzelf het internet afstruinen om dingen te leren.

Om te "leren," analyseert Levan zowel de context waarin een foto is geplaatst als de inhoud van de afbeelding zelf. Om de context te bepalen zoekt hij via Google Books, Google afbeeldingen en andere databases naar verschillende "variaties" van het woord. Het algoritme kan bijvoorbeeld onderscheid maken tussen een foto van twee mensen die de tango doen en een foto waarop twee mensen de wals dansen. Het zal beide foto's toevoegen in de database en wanneer je daarna een foto laat zien van een tango of een wals laat zien, zal het in staat zijn om te bepalen welk type dans te zien is.

Levan analyseert foto's om een goed idee te krijgen van hoe bepaalde concepten er uitzien. Afbeelding: Ali Farhadi

Er moet bij gezegd worden dat er nog veel bugs zijn. Wanneer je een beetje speelt met Levan voor een paar minuten, zul je door hebben dat er veel duplicaten zijn en dat veel dingen niet goed gecategoriseerd zijn.

"Dit is versie 1.0," zegt Diwala. "Tegen versie zes of zeven, zal het in staat zijn om veel meer dingen te doen."

Het idee is om Levan binnenkort als een smartphone app uit te brengen, dus in de nabije toekomst kun je beginnen met het schieten van foto's van dingen, om vervolgens Levan je te laten vertellen wat het is. Maar, in de toekomst, zegt Farhadi dat de onderliggende structuur van het programma belangrijke implicaties heeft voor robotzicht. Uiteindelijk, zou een Levan-achtig programma ingesloten kunnen worden in een robot die voorzien is van een camera. Het zal dan door de gang van alledag heen gaan en een auto als een auto zien en een persoon als een persoon, in plaats van dat het alles ziet als een object dat vermeden moet worden (de manier waarop bestuurderloze auto's nu nog werken bijvoorbeeld).

En op dat punt zijn we een stuk dichterbij het verkrijgen van robots die net zo kunnen handelen als wij.