Presto non riusciremo a distinguere una voce umana da una artificiale

Grazie al progetto WaveNet di Google, Siri sarà ancora più inquietante.

di Janus Rose

New York, US

13.9.16

Immagine: Shaye Anderson

Il suono meccanico delle voci cibernetiche e singhiozzanti delle app di assistenza digitale come Siri potrebbe avere i giorni contati, grazie a uno sviluppo importante che riguarda l'impiego dell'intelligenza artificiale per generare discorsi umani realistici.

In un articolo di ricerca pubblicato di recente, gli scienziati del progetto DeepMind—proprietà di Google—hanno svelato WaveNet, una rete neurale che genera forme d'onda sonore predicendo e adattandosi ai suoi stessi output in tempo reale. Il risultato è una voce computerizzata che suona di gran lunga più naturale e che, secondo gli scienziati, riduce di oltre il 50 percento il divario che percepiamo tra voci umane e voci computerizzate che parlano inglese e cinese.

Questo nuovo modello predittivo è ben lontano dai sistemi di voce sintetizzata usati dalle app di "assistenza digitale" come Siri. Invece di usare un sistema vocale "concatenativo" che mette insieme frammenti di discorso registrati da un essere umano (nel caso della versione angolofona di Siri, la doppiatrice Susan Bennett) prelevandoli da una libreria, WaveNet si allena su un database enorme, poi genera forme d'onda grezze un campione sonoro alla volta, usando un modello noto come "autoregressivo"—in altre parole, ogni frammento individuale della forma d'onda è predetto sulla base del frammento che lo precede. La rete neurale è stata sviluppata da un modello simile, chiamato PixelCNN, che fa la stessa cosa con la visione computerizzata, predicendo le immagini un pixel alla volta.

Concatenative WaveNet

"Per essere certi che sapesse che voce utilizzare per un dato enunciato, abbiamo condizionato la rete sull'identità della voce su cui studiava," hanno scritto i ricercatori del DeepMind, in un blog post. "Abbiamo scoperto che allenare la rete su diverse voci la rendeva migliore a modellarne una specifica, rispetto ad allenarla su una voce sola, il che implica una forma di transfer learning."

WaveNet non fa solo discorsi, comunque: può anche generare diversi stili di musica. Allenare la rete sul pianoforte classico, per esempio, ha prodotto ha una serie di accordi straordinariamente coesi durante i test dei ricercatori.

Più strano ancora è ciò che succede quando il sistema non riceve istruzioni. Dato che WaveNet è autoregressiva, può generare una voce anche se non riceve alcun input testuale, il che porta a un "barbuglio" predittivo che suona come se Siri stesse facendo pratica di glossolalia. I ricercatori hanno anche scoperto che il sistema è abile in modo inquietante nell'emulare elementi del discorso non verbali, come il respiro e i movimenti della bocca.

Sia chiaro, le voci e la musica generati da Wavenet suonano ancora strani a un orecchio esperto e comporre discorsi con questa tecnologia richiede ancora un enorme sforzo di calcolo. Ma se paragonato agli attuali metodi di trasformazione testo-voce, questo sistema mette sicuramente in chiaro che siamo sull'orlo della uncanny valley delle voci computerizzate.

Tagged:Futuromotherboard showIATechMotherboard