FYI.

This story is over 5 years old.

Tech

Les réseaux de neurones continuent à enfanter des monstres

Le système pix2pix​ est de retour. Il y a plusieurs mois il permettait d'incarner des créatures monstrueuses à partir de dessins de chat, aujourd'hui il génère des visages humains.

Si vous vous souvenez bien, nous avions évoqué il y a quelques mois un système d'interprétation d'image à image basé sur l'apprentissage automatique non supervisé d'un réseaux de neurones. Celui-ci vous permettait d'incarner des dessins de chats griffonnés à l'aide de vos petites mains maladroites, pour en faire des créatures immondes tout droit sorties des enfers.

Cette première itération du projet pix2pix consistait en fait à forcer un algorithme à interpréter une forme (chat, chaussures, immeubles, etc.), à lui attribuer les couleurs, textures, et autres détails empruntés à des milliers d'images appartenant à la même catégorie - sur lesquelles l'algorithme s'était entrainé. La nouvelle version que prépare actuellement l'instigateur du projet, Christoper Hesse, est encore plus terrifiante : elle permet de générer des visages humains. C'est ici que ça se passe.

Publicité

Le projet pix2pix met en évidence une caractéristique fondamentale du machine learning en 2017 : encore aujourd'hui, ce domaine de l'IA ne produit que des résultats médiocres quand il s'agit de générer de nouvelles images, ou du moins, des images cohérentes, qui font sens. En fait, les systèmes de machine learning sont beaucoup plus utiles et efficaces pour classer des images existantes. Et même là, leur pertinence s'effondre dès que l'on s'aventure au-delà d'une poignée de modèles très robustes de reconnaissance d'objets. Pour obtenir un modèle vraiment solide, il faut entrainer l'algo sur des millions et des millions d'images ; l'entrainement en lui-même prend un temps considérable, ce qui limite l'utilisation de ce système dans l'industrie.

Pix2pix est basé sur une technique prometteuse appelée generative adversarial networks (GAN). Les GAN fonctionnent en entrainant des modèles génératifs qui cherchent à minimiser une "fonction de perte" spécifique, à partir d'une prédiction sur l'image générée (vraie, ou fausse). Fondamentalement, le GAN "apprend" à représenter des choses en dessinant des séries d'images aléatoires de manière itérative, tandis qu'un second algorithme juge le réalisme des images en question et s'exclame "VRAIE !" ou "FAUSSE !"

Avec une très grosse base de données à disposition, un GAN permet en théorie d'esquisser des formes à partir de rien. Avec un ensemble de données plus petit, comme ici, Christopher Hesse a dû se contenter de faire de la traduction d'image à image. Plutôt que d'apprendre à produire des images ex nihilo, le modèle s'emploie à cartographier la représentation d'une image abstraite contenue dans un modèle de machine learning, à partir d'un gribouillis dessiné sur une interface. Il est capable de reconnaitre certains "patterns" au sein même du dessin, même si celui est très mauvais (par exemple des yeux, une forme de visage, un cou) et de les apparier à des traits implantés au sein du modèle. Le résultat n'est pas très joli à voir. Mais pas de doute, l'algo a fait tout ce qui était en son pouvoir pour générer le plus bel humanoïde possible.

Même si les résultats obtenus par des GAN peuvent sembler triviaux ou grossiers à l'heure actuelle, ils joueront sans nul doute un rôle prépondérant en IA dans les années à venir. Cronenberg s'en félicite, et nous aussi.