Questo algoritmo ha imparato da solo a creare video dalle foto

L'algoritmo ha imparato a prevedere il movimento guardando circa due milioni di video.

1.12.16

Il team aveva due reti neurali che competevano l'una contro l'altra. Una provava a ingannare l'altra facendole credere che i suoi video fossero 'reali'. Immagine: MIT CSAIL/YouTube

Un team di ricercatori del Computer Science and Artificial Intelligence Lab (CSAIL) del MIT ha creato un algoritmo di deep learning che è in grado sia di produrre video sia di anticipare la sequenza di un video basandosi su una singola immagine.

Come spiega in modo approfondito il paper che sarà presentato a breve alla Conference on Neural Information Processing Systems a Barcellona, il team del CSAIL ha sottoposto l'algoritmo alla visione di 2 milioni di video la cui durata complessiva sarebbe stata più di un anno. Per abituare la macchina alle normali interazioni umane, i ricercatori hanno scelto video che rappresentano momenti banali di vita quotidiana. Dettaglio rilevante: i video non erano stati classificati in alcun modo, quindi non offrivano all'algoritmo nessun indizio su cosa stesse succedendo a livello dei contenuti.

Estraendo un set di dati dal materiale visivo, l'algoritmo avrebbe provato a generare dei video da immagini che imitavano i movimenti umani basandosi su ciò che aveva osservato. È stato contrapposto a un altro algoritmo di deep learning che provava a distinguere i video prodotti dalla macchina da quelli reali, un metodo di apprendimento chiamato adversarial learning.

"Abbiamo riscontrato nel prototipo di questo modello che la rete neurale di creazione dei video avrebbe tentato di ingannare l'altra rete neurale deformando lo sfondo o immettendovi immagini insolite," ha detto a Motherboard Carl Vondrick, un candidato PhD al CSAIL e autore principale del paper. "Abbiamo avuto la necessità di dare al modello il concetto secondo cui il mondo è perlopiù statico."

Per risolvere questo problema, Vondrick e i suoi colleghi hanno creato un' "architettura a due flussi" il cui scopo è spingere la rete neurale che genera video a rappresentare uno sfondo statico mentre gli oggetti in primo piano si muovono. Questo modello a due flussi ha prodotto video molto più realistici, anche se brevi e con una risoluzione molto bassa. I video creati dall'algoritmo erano della dimensione di 64 x 64 e includevano 32 immagini (i film standard di breve durata hanno una sequenza di 24 immagini al secondo, ciò significa che questi video duravano poco più di un secondo), che raffiguravano cose come paesaggi, stazioni dei treni, e visi di bambini appena nati (queste ultime erano particolarmente terrificanti).

Anche se la capacità di generare video di un secondo non sembra granché, questo risultato supera lontanamente il lavoro precedente in cui si poteva produrre solo poche immagini visuali con parametri molto più restrittivi in termini di contenuti. L'ostacolo principale della macchina che genera video è che gli oggetti in movimento, soprattutto le persone, erano spesso raffigurati come "blob", nonostante i ricercatori credessero che "il nostro modello può produrre immagini verosimili."

In effetti, questa immagine era così convincente che quando i ricercatori hanno mostrato un video creato dalla rete neurale e un video 'reale' a dipendenti ingaggiati da Amazon's Mechanical Turk e gli hanno chiesto quale trovassero più realistico, hanno scelto il video prodotto dalla macchina per circa il 20 percento del tempo.

Oltre alla creazione di video originali, uno dei risultati più promettenti di questo lavoro è la capacità di usare questo modello per video e foto già esistenti. Quando i ricercatori hanno applicato il loro algoritmo di deep learning a un fotogramma, l'algoritmo riusciva a differenziare gli oggetti nella foto e a produrre 32 fotogrammi producendo "immagini abbastanza accettabili". Secondo Vondrick, questa è la prima volta che una macchina è in grado di creare video multi-frame da un'immagine statica.

Questa capacità di anticipare il movimento di un oggetto o di una persona è fondamentale per l'integrazione futura delle macchine nel mondo reale, perché permetterà alle macchine di non compiere azioni che possano danneggiare le persone o aiutarle a non farsi del male. Per Vondrick, sarà decisiva nel campo delle machine learning non controllate poiché questo tipo di macchina che usa un algoritmo visivo riceve tutti i dati iniziali da video non classificati. Se le macchine vogliono davvero diventare efficienti nel riconoscimento degli oggetti, devono raggiungere quest'obiettivo senza alcun dato che gli consenta di identificarli.

Tuttavia, per Vondrick, una delle possibilità più avvincenti della sua ricerca ha un valore scientifico non rilevante.

"Ho fantasticato su una macchina che crea film brevi o programmi televisivi," ha detto Vondrick. "Siamo producendo dei video della durata di solo un secondo, ma appena cominceremo a potenziare il suo funzionamento potrà generare video di qualche minuto in cui racconterà una storia davvero coerente. Non siamo ancora vicini a questo risultato, però penso che abbiamo fatto il primo passo."

Tagged:motherboard showmacchinealgoritmiTechMotherboard