Cet algorithme est capable de produire une vidéo à partir d'une simple photo

C'est la toute première fois qu'une machine est capable de générer une vidéo à partir d'une image fixe, et ses créateurs rêvent de lui faire produire des films.

par Daniel Oberhaus

30.11.16

L'équipe a placé deux réseaux de neurones face à face, l'un tentant de faire croire à l'autre que les vidéos qu'il générait étaient "vraies". Image: MIT CSAIL/YouTube.

Un groupe de chercheurs du Computer Science and Artificial Intelligence Lab (CSAIL) du MIT ont créé un algorithme reposant sur le deep learning capable de générer ses propres vidéos et de prévoir le futur d'une vidéo en se basant sur une unique image.

Comme précisé dans un article qui sera présenté la semaine prochaine à la conférence Neural Information Processing Systems à Barcelone, l'équipe du CSAIL a entraîné son algorithme en lui faisant regarder plus de 2 millions de vidéos, qui auraient duré plus d'un an au total si elles avaient été regardées à la suite et en intégralité. Ces vidéos montraient des moments banals tirés de la vie quotidienne pour que la machine s'habitue aux interactions humaines normales. Surtout, ces vidéos avaient été trouvées "dans la nature", et n'étaient donc pas étiquetées, ce qui signifie que l'algorithme n'avait aucun indice sur ce qui se passait dans la vidéo.

En se basant sur cet ensemble de données, l'algorithme devait générer des vidéos à partir de rien imitant les mouvements humains, grâce à ce qu'il avait observé dans les 2 millions de vidéos. Il a ensuite été confronté à un autre algorithme chargé de tenter de distinguer les vidéos générées par la machine des vidéos bien réelles, une méthode baptisée adversarial learning.

"Ce que nous avons découvert sur les premières versions de ce modèle, c'est que l'algorithme générateur tentait de tromper l'autre en déformant l'arrière-plan ou en créant des mouvements bizarres en arrière-plan, m'a expliqué Carl Vondrick, doctorant au CSAIL et auteur principal de l'article. Nous devions apprendre aux algorithmes que le monde est surtout statique."

Pour corriger ce problème, Vondrick et ses collègues ont créé une "architecture à deux courants" qui force le réseau générateur à produire un arrière-plan statique pendant que les objets et sujets situés au premier plan se déplacent. Ce modèle à deux courants a généré des vidéos bien plus réalistes, quoique courtes et en très basse résolution. Les vidéos produites par l'algorithmes étaient en 64 x 64 et composées de 32 images (les films standards sont filmés en 24 images par seconde, et ces vidéos duraient donc à peine plus d'une seconde), montrant des choses telles que des plages, des gares, et des visages de nouveaux-nés (lesquels étaient particulièrement terrifiants).

La capacité de générer une seconde de vidéo à partir de rien n'est peut-être pas hyper impressionnant de prime abord, mais cela dépasse tout ce qui a été fait auparavant dans ce domaine ; jusqu'ici, aucun algorithme n'avait réussi à générer plus de quelques images de vidéo avec des paramètres beaucoup plus stricts en termes de contenu. Le principal écueil des vidéos générées par la machine, c'est que les objets qui bougent, en particulier les gens, sont souvent rendus sous la forme de "blobs", même si les chercheurs se félicitent que leur modèle "soit capable de produire des mouvements crédibles."

Et de fait, ces mouvements étaient tellement crédibles que quand les chercheurs ont montré une vidéo générée par la machine puis une "vraie" vidéo à des personnes extérieures et leur ont demandé laquelle ils trouvaient la plus réaliste, celles-ci ont choisi la vidéo produite par la machine dans 20% des cas.

En plus de générer des vidéos originales, l'un des résultats les plus prometteurs de cette expérience est la capacité à appliquer l'algorithme à des vidéos et des photos qui existent déjà. Quand les chercheurs ont appliqué leur algorithme à une image fixe, il a été capable de distinguer les objets présents sur la photo et de les animer sur 32 images en produisant "des mouvements assez réalistes" pour chacun d'entre eux. Selon Vondrick, c'est la première fois qu'une machine est capable de générer une vidéo à partir d'une image fixe.

Cette capacité à anticiper les mouvements d'un objet ou d'une personne est cruciale pour l'intégration future des machines dans le monde réel, dans la mesure où elle permettra aux machines de ne rien faire qui puisse blesser des personnes - voire même d'aider des personnes à ne pas se blesser. Selon Vondrick, cela permettra aussi de faire progresser le machine learning autonome, puisque cet algorithme a reçu toutes ses données en provenance de vidéos non étiquetées. Si les machines veulent vraiment apprendre à reconnaître et classer des objets, il faudra qu'elles soient capables de le faire sans posséder au préalable de données sur chaque objet.

Mais pour Vondrick, l'une des possibilités les plus enthousiasmantes ouvertes par ses recherches n'a que peu de valeur scientifique ou pratique.

"Je rêve qu'une machine puisse créer un court-métrage ou une série, dit-il. Pour l'heure, nous ne créons qu'une seconde de vidéo, mais peut-être que bientôt nous pourrons produire quelques minutes, avec une histoire cohérente. Nous en sommes encore loin, mais je pense que c'est un premier pas important."

Tagged:machinesvideosMITmotherboard showIAintelligence artificiellemachine learningCSAILalgorithmeTechMotherboard

FYI.

This story is over 5 years old.

Cet algorithme est capable de produire une vidéo à partir d'une simple photo

Dernière étape pour t'abonner à la newsletter VICE...