Lo slow motion artificiale di Nvidia funziona meglio di una camera a 300.000 FPS

Il software di Nvidia e le schede grafiche Tesla V100 possono generare dei frame aggiuntivi per riempire gli spazi vuoti dei video grazie all'intelligenza artificiale.

|
21 giugno 2018, 11:07am

È possibile provare pura e sincera felicità nel fare un video slow-motion di più o meno qualsiasi cosa — Che si tratti di un glorioso momento sportivo, una divertente sorpresa o un bel pugno, tutto è più bello in slow-motion. Il problema è sapere, prima che accada, che sta per succedere qualcosa che vale la pena venga filmato in slow-motion. Questo sopratutto perché convertire un video normale in uno slow-motion di solito è un processo piuttosto legnoso.

Benvenuti nel laboratorio di ricerca Nvidia sull'implementazione dell'intelligenza artificiale per lo slow-motion. I ricercatori qui hanno utilizzato un gruppo di schede grafiche Tesla V100 ad alta potenza e una rete neurale di deep learning per generare un video slow-motion praticamente perfetto a partire da qualunque video a velocità standard.

Una breve introduzione ai video in slow-motion: la maggior parte dei video che registri con la camera del tuo telefono, per esempio, catturano le immagini a 30 frame al secondo, o fps. Quel video viene poi riprodotto alla stessa velocità, producendo così il risultato di un video "normale". Se usi una telecamera ad alta velocità per catturare un video a 240 fps e poi lo riproduci a 30, la differenza fornisce l'effetto slow-motion. L'effetto slow-motion deriva sia dal modo in cui viene registrato il video, sia come viene riprodotto.

La parte difficile di convertire un video normale in uno slow-motion, dunque, è trovare i frame extra da mostrare. Non importa cosa si faccia, una clip da 4 secondi registrata a 30 fps ha dentro soltanto 120 frame. Se la riproduci molto lentamente rischia d apparire estremamente legnoso e discontinuo.

Nvidia ha risolto questo problema chiedendo alla propria intelligenza artificiale di creare i frame mancanti, e provare a renderli il più realistici possibili. "Il team ha addestrato il sistema su circa 11.000 video diversi di vita giornaliera e riprese di sport ripresi a 240 frame al secondo," si legge nel blog di ricerca di Nvidia. "Una volta addestrato, la rete neurale convoluzionale ha predetto i frame extra."

L'effetto è ben riuscito — specie quando prendono delle clip dei The Slow Mo Guys e le rallentano ancora di più — ma non riesco a non pensare a un certo effetto straniante attorno a questi video. Siamo ben oltre il punto in cui è possibile trasformare una foto innocente su Instagram in uno scatto porno senza il consenso della persona ritratta. I sistemi di image tracking e di sintesi della voce, sfruttando ancora le rete neurali e il deep learning, possono genere un discorso presidenziale mai pronunciato e animare delle labbra per far si che il video corrisponda all'audio. Un determinato video è "reale" se ogni dieci frame ce n'è uno generato da un computer? E se fosse uno ogni tre? Si trasforma in computer grafica se il computer genera un frame ogni due?

Sto solo facendo delle domande, ma non ho idea delle risposte.

Questo articolo è apparso originariamente su Motherboard US.