Come i videogiochi insegnano alle intelligenze artificiali a guardare la realtà

Grazie all’industria moderna dei videogiochi, ora possiamo passare le nostre serate a vagare per mondi foto-realistici, come la Boston post-apocalittica di Fallout 4 o la Los Santos di Grand Theft Auto V, invece di fare cose tipo “vedere gente” e “intrattenere rapporti umani.”

I giochi di oggi sono talmente verosimili che i ricercatori che si occupano di intelligenza artificiale hanno iniziato a usarli per insegnare ai computer come riconoscere gli oggetti nella vita reale. Non solo: i videogiochi commerciali potrebbero fornire un enorme contributo a questo settore di ricerca, diminuendo drasticamente il tempo e i soldi necessari per allenare una IA.

Videos by VICE

“Se prendiamo il primo Doom, i muri avevano tutti lo stesso aspetto ed era molto facile predire che aspetto avrebbe avuto quello dopo, dalle informazioni date,” ha detto Mark Schmidt, un professore di informatica all’università della British Columbia (UBC). “Ma se andiamo nel mondo reale, dove ogni muro è diverso dall’altro, le cose non funzionano più.”

Schmidt lavora con il machine learning, una tecnica che permette ai computer di “allenarsi” su una grossa mole di dati etichettati—fotografie di strade, per esempio—così da riuscire a riconoscere o “predire” ciò che guarderà poi nel mondo reale. Schmidt e Alireza Shafae, PhD alla UBC, hanno studiato di recente Grand Theft Auto V e hanno scoperto che un software di auto-apprendimento allenato sulle immagini del gioco si comportava come un software allenato su foto reali provenienti da dataset pubblici, se non meglio.

“Le grafiche dei videogiochi sono diventate talmente buone che è possibile allenare una IA su dati grezzi e ottenere risultati paragonabili a quelli provenienti da dati reali,” ha continuato Schmidt. Ovviamente i videogiochi non sono abbastanza avanzati da essere indistinguibili dalla realtà, quindi le immagini reali sono ancora preferibili. Ma il fatto che sia possibile prelevare una quantità enorme di immagini etichettate dai giochi controbilancia la mancanza di dettaglio delle immagini individuali.

Poiché i database usati nel machine learning come Cityscape e CamVid contengono solo immagini scattate in città europee, i giochi che ritraggono in modo realistico i luoghi del nord America possono anche aiutare una IA ad ampliare i propri orizzonti.

“Per esempio, le strade europee sono più strette di quelle dell’America del nord,” ha detto Stephan Richter, PhD alla Technische Universität Darmstadt in Germania, che si occupa a sua volta di visione computerizzata. “Se alleni una IA sulle strade tedesche e cerchi poi di usarla sulle strade degli Stati Uniti, non si comporta in modo corretto, come se non avesse i dati di riferimento giusti.”

I videogiochi permettono ai ricercatori di creare immagini etichettate molto più velocemente rispetto a quando lavorano con foto reali. Quando lavorano su una foto di una strada vera, devono identificare manualmente ogni oggetto reale contenuto nel quadro, così che il computer sappia che cosa sta guardando. È un processo che richiede molto tempo, e il tempo è denaro.

Ma il codice di un videogioco “sa” sempre cosa c’è sullo schermo e questo significa, in pratica, che le immagini sono già state pre-etichettate per i ricercatori. Tutto ciò che serve è un software che possa intercettare i comandi che un gioco invia al hardware grafico di un computer, dato che il codice sorgente di per sé è protetto dai diritti delle case di produzione.

“Ci siamo accorti che, poiché il gioco sa già che cos’è un’automobile e dove si troverà nel frame successivo, è come se avessimo etichette già pronte, il che ci permette di snellire il processo di annotazione,” ha detto Richter.

Richter e il suo gruppo di ricercatori alla Technische Universität Darmstadt e agli Intel Labs hanno pubblicato un articolo di ricerca su questo approccio e scoperto che etichettare una sola immagine tratta da Grand Theft Auto V richiede sette secondi in media. Per etichettare manualmente immagini del mondo reale, d’altro canto, ci vogliono tra i 60 e i 90 minuti—una differenza considerevole sia per il tempo di lavoro che per i soldi spesi per pagare le persone che devono fare quel lavoro.

Titoli come Grand Theft Auto, Hitman, e il videogioco ambientato a Chicago Watch Dog—solo un paio di esempi dal paper—offrono un realismo e un livello di dettaglio sufficienti per, potenzialmente, rivoluzionare la ricerca nel campo del machine learning. I gruppi di ricercatori potrebbero non avere il tempo o i soldi per etichettare manualmente immagini reali o per generare una simulazione in 3D realistica da soli: i videogiochi possono supplire a questo vuoto di risorse.

Ma per far sì che le cose funzionino davvero, ha detto Richter, gli sviluppatori dovrebbero collaborare apertamente con i ricercatori.

“I videogiochi sono diventati talmente realistici in termini di qualità visiva e velocità nel renderizzare immagini foto-realistiche che sarebbe una cosa incredibile poter accedere ai motori grafici dei giochi per chi lavora con il machine learning,” ha detto Richter. “Sarebbe interessante se chi costruisce i giochi ci lasciasse sbirciare dentro quei mondi.”

In un futuro saturo di IA, il fatto che un nuovo gioco sia così realistico da convincere persino un computer, potrebbe essere un ottimo argomento per promuoverlo ai giocatori.