FYI.

This story is over 5 years old.

Tech

Un algorithme a appris à générer la bande son d’une vidéo silencieuse

Les bruiteurs et sound designers du monde entier peuvent commencer à se faire du souci.

Le Laboratoire de recherche en informatique et en intelligence artificielle (CSAIL) du MIT

a annoncé

une invention très impressionnante cette semaine : une IA capable de générer des bruitages appropriés sur une vidéo dépourvue de son. Même si le logiciel est encore limité, leurs résultats indiquent qu'il s'agit d'une avancée significative, et qui tombe à point nommé :

IBM vient d'annoncer

son nouveau système de création musicale basé sur le superordinateur Watson.

Lorsque le logiciel du MIT « voit » un objet en frapper un autre sur une vidéo, il est capable de déterminer très précisément quel type de bruit sera généré par l'impact. « Lorsque vous tapotez un verre de vin, le bruit qui résonnera dépendra de la quantité de liquide que contient le verre en question, » explique Andrew Owens, doctorant au CSAIL, et auteur principal de l'article publié sur MIT News. « Un algorithme capable de simuler des sons de manière fiable grâce à des informations en provenance du monde réel peut nous donner des informations clés sur les propriétés des objets en rapport avec leur forme et leurs matériaux, ainsi que sur l'effet des forces et mouvements qui leur sont appliqués. » Le programme utilise un système de « drop learning », qui permet à l'intelligence artificielle de reconnaître des patterns dans d'énormes quantités de données vidéo. Dans le cas présent, les données étaient composées d'environ 1000 vidéos et d'environ 46000 types de sons différents. La base de données de sons, intitulée « Greatest Hits, » a été mise gratuitement à la disposition des autres chercheurs.

Pour prédire les bruits d'une vidéo inédite, l'algorithme analyse les propriétés sonores de tous les éléments visibles sur la vidéo, image par image, et les associe aux sons les plus adéquats disponibles dans la base de données, » explique Owens. « Une fois que le système a trouvé les bons extraits audio, il les 'tisse' ensemble pour créer un son cohérent. »

Évidemment, le système n'est pas parfait. Une vidéo n'est jamais composée uniquement de bruits d'objets percutés de manière visible, c'est-à-dire de « sons ayant un pendant visuel » selon l'expression du doctorant. L'algorithme est donc limité à la fois par la « performance » et par la vidéo elle-même. Une baguette s'abaissant selon un rythme peu régulier sur un tambour posera des problèmes à l'IA, et bien sûr, l'algorithme demeurera incapable de détecter et reproduire des bruits ambiants. Pourtant, il s'agit là d'un progrès énorme en matière d'intelligence artificielle, puisque ce système est, dans une certaine mesure, capable de penser de manière subtile. « Si la machine regarde un trottoir, elle pourra 'instinctivement' savoir que le ciment est dur et que l'herbe est douce, et donc déduire ce qui se passerait si un objet était frappé contre l'un ou l'autre, » précise Owens. « La prédiction sonore constitue une première étape, très importante, dans l'élaboration d'un système de prédiction des effets des interactions physiques dans le monde. »