FYI.

This story is over 5 years old.

Tech

Dit algoritme produceert geluid voor geluidloze video's

Sla met een stok op een object en het algoritme vertelt je hoe het moet klinken.

Het laboratorium voor Computer Science and Artificial Intelligence (CSAIL) van het Massachusetts Instituut voor Technologie (MIT) maakte maandag een indrukwekkende uitvinding bekend: Kunstmatige intelligentie dat het juiste geluid kan genereren wanneer het een geluidloze video krijgt aangeboden. Hoewel er nog beperkingen zijn, wijzen de resultaten op een volgende grote stap vooruit in het dynamische onderzoeksgebied van kunstmatige intelligentie. Dit nieuws volgt namelijk direct op de lancering van IBM's Watson supercomputer die muziek produceert, afgestemd op menselijke emoties.

Alleen wanneer het nieuwe algoritme een object ziet dat wordt geraakt, zal het in staat zijn om te bepalen wat voor geluid er precies wordt gemaakt. "Als je je vingers tegen een wijnglas tikt, is het geluid dat klinkt afhankelijk van de hoeveelheid vloeistof die er in zit," legt Andrew Owens, Phd-student van het CSAIL en hoofdauteur van het artikel, uit aan MIT News. Een algoritme dat dit soort geluiden simuleert kan informatie geven over vormen en materialen van objecten, of van de kracht en bewegingen van interacties met de wereld." Het programma gebruikt "drop learning," waarbij kunstmatige intelligentie patroonherkenning wordt aangeleerd, terwijl het een grote hoeveelheid data doorspit. In dit geval bestond de data uit ongeveer 1.000 video's waarin zo'n 46.000 verschillende geluiden verwerkt zaten. De database van geluiden, genaamd 'Greatest Hits," is vrij verkrijgbaar voor andere onderzoekers.

"Om vervolgens te voorspellen wat het geluid is van een nieuwe video, kijkt het algoritme naar de eigenschappen van elk geluidsframe en vergelijkt het met de meest overeenkomende geluiden uit de database," legt Owens uit. "Op het moment dat het systeem die stukjes audio heeft gevonden, naait het ze aan elkaar om een samenhangend geluid te creëren."

Het is systeem is nog niet perfect: Objecten die zichtbaar andere dingen raken, of zoals de studenten van MIT zeggen, "zichtbaar weergegeven geluiden," zijn niet de enige soort geluiden die we in ons opnemen natuurlijk. Het algoritme is beperkt door zowel de presentatie in de video als de kwaliteit van de video zelf. Een trommelstok dat in een minder duidelijk patroon beweegt kan problemen opleveren. Ook kan het algoritme natuurlijk geen geluiden uit de omgeving waarnemen, omdat deze die niet ziet. Toch is het nog steeds een grote vooruitgang in de wereld van computers met het vermogen om kritisch te denken. "Een robot zou op een stoep kunnen lopen en instinctief weten dat het cement hard is en het gras zacht. Hij weet daarom hoe het zou voelen om op de ene of de andere ondergrond te lopen," verteld Owens. "Het kunnen voorspellen van geluid is een belangrijke stap in de richting van het vermogen om consequenties in de fysische interacties van de wereld te kunnen voorspellen."