L'intelligenza artificiale di Google ha reso possibile la 'zoomata' di CSI

Vi ricordate quando ridevamo di CSI e delle sue fantasiose trovate investigative come lo 'zoom & enhance'? Ci sbagliavamo.

|
09 febbraio 2017, 10:41am

Sappiamo tutti quanto nei primi anni 2000 il mondo dell'intrattenimento, e in particolare quello della televisione, abbia massacrato con gusto e innecessaria violenza qualunque parvenza di credibilità durante le scene che avevano qualcosa a che fare con l'informatica o la scienza — Penso alle diagnosi di Dr. House, ai raggi laser potentissimi di qualunque film d'azione, o a tutti gli attacchi hacker da Banda Bassotti a cui abbiamo dovuto assistere.

C'è un episodio in particolare che non ricordavo e che mi ha fatto ridere rumorosamente pochi minuti prima di cominciare a scrivere questo pezzo (sì non nel senso che ho scritto ahahahahahah ai miei colleghi ma nel senso che ho emesso delle risate dalla bocca generando rumore, quindi fa megaridere).

Si tratta di una puntata di CSI in cui si ripete la solita solfa dello 'zoom & enhance' — ingrandisci e sgrana, praticamente —, ma questa volta l'Horatio Caine dei poveri anziché accontentarsi di una zoomata imbecca arguto la collega, "La vedi quell'ombra nel video di sorveglianza? Zooma la CORNEA della tipa che si vede e sgamiamo il colpevole grazie al riflesso che ovviamente si vedrà nella cornea della tipa," — Be' loro ci provano e ci riescono; anche oggi Gotham City è salva.

Fatta questa premessa, da oggi possiamo finalmente congratularci a vicenda per star vivendo tutti assieme nel 2017 perché il team di Google Brain, l'intelligenza artificiale di Google, ha reso lo 'zoom & enhance' possibile. Ciò significa che gli autori dietro CSI Miami, New York e Cyber AVEVANO RAGIONE.

In un paper pubblicato su arXiv il 2 febbraio e firmato da Ryan Dahl, Mohammad Norouzi e Jonathon Shlens — tre ricercatori di Google Brain — è stato presentato un "pixel recursive super resolution model", ovvero un modello algoritmico che "sintetizza dettagli realistici all'interno di immagini a bassa risoluzione, aumentando nel frattempo la loro risoluzione," si legge nell'abstract del paper.

La griglia delle immagini fornita dal paper: a sinistra l'immagine di partenza, a destra l'originale, al centro il prodotto dell'algoritmo.

In pratica, l'algoritmo mastica e digerisce un'immagine a bassa risoluzione, per poi risputarla fuori a maggior risoluzione e includendo artificialmente dei dettagli capaci di rendere realistica l'immagina ingrandita.

La particolarità di questo modello sta però nella capacità di applicare un modello statistico alla scelta dei dettagli da inserire per rendere quanto più fedeli alla realtà dietro l'immagine a bassa risoluzione di partenza, "Un'immagine a bassa risoluzione può corrispondere a diverse immagini plausibili a risoluzione maggiore, per questo motivo la progettazione del processo di super resolution mediante un 'pixel independent conditional model' spesso genera immagini munite di dettagli confusi — da qui l'effetto sgranato," si legge nell'abstract.

"Il nostro modello, però, può rappresentare una 'multimodal conditional distribution' di questi dettagli modellando accuratamente le dipendenze statistiche tra i pixel dell'immagine ad alta risoluzione, a partire da un input a bassa di risoluzione," scrivono i ricercatori.

Questo modello, in sostanza, sfrutta due diverse reti neurali per riuscire nel suo compito — La prima rete, di 'condizionamento', cerca prima di tutto una corrispondenza tra l'input di partenza (che nel caso del paper era un'immagine 8x8 pixel) e altre immagini ad alta risoluzione ridotte a una dimensione di 8x8 pixel.

Gli output e i procedimenti svolti dalle due reti neurali.

Poi c'è la seconda rete neurale, denominata prior, la quale sfrutta un'implementazione di PixelCNN per arricchire di dettagli realistici l'immagine a bassa risoluzione. Questa rete prior segue un percorso di 'ragionamento' tipico delle reti neurali: prima di tutto visualizza e analizza una valanga di immagini ad alta risoluzione simili a quella di partenza (nel caso del paper, si tratta di immagini di celebrità e di camere da letto).

Una volta che la rete prior ha capito quali sono i dettagli più importanti per caratterizzare queste due categorie di immagini, li applica all'upscaling dell'immagine a bassa risoluzione sfruttando le informazioni ricevute dalle immagini ad alta risoluzione per risolvere le sgranature causate dall'ingrandimento dell'immagine.

Una volta che le due reti neurali hanno finito di lavorare per conto loro, gli output restituiti da esse vengono uniti assieme, e generano l'immagine ad alta risoluzione. È bene ricordare che l'ingrandimento fornito dall'algoritmo non corrisponde alla realtà, ma a una versione plausibile e ricca di dettagli della reale versione 'hi-res' dell'immagine 'low-res' di partenza.

La notizia è solo l'ultima di una serie di scoperte e innovazioni provenienti dai team di ricerca su intelligenza artificiali e reti neurali di Google, che recentemente hanno saputo insegnare a una IA a sfruttare la propria memoria e hanno scoperto Google Brain a macchinare un protocollo crittografico leggibile solo all'intelligenze artificiale stessa.