FYI.

This story is over 5 years old.

Tecnologia

Il piano per decodificare tutte le lingue del mondo

Insegnare nuovi linguaggi ai computer costa tempo e denaro. LORELEI spera di cambiare la situazione.
​Immagine: Marc Wathieu/Flickr

Nelle settimane dopo il terremoto di Haiti del 2010, ciò di cui le persone colpite dalla catastrofe avevano più bisogno non erano solo i soldi per la ricostruzione, ma anche persone con cui poter parlare. Anche quando vennero lo stato colpito dal sisma è stato rifornito di medicine e acqua pulita, le truppe straniere e gli operatori umanitari non riuscivano a parlare con i locali per capire dove c'era più bisogno di queste provviste. Con pochissimi interpreti a disposizione, le speranze erano riposte nei traduttori automatici, ma il creolo haitiano, parlato da molte persone dello stato caraibico, era praticamente sconosciuto dalla linguistica dei computer.

Pubblicità

Il creolo haitiano è parlato da circa 10 milioni di persone, ma dal punto di vista della linguistica è ancora un linguaggio "con basse risorse." Idiomi come questo sono quasi sempre assenti nei database linguistici incrociati usati dai moderni software di traduzione, sono disponibili pochi testi scritti per le analisi e non sono molto utilizzati in rete. E tuttavia questi idiomi comprendono una grande fetta delle circa 7.000 divisioni linguistiche del mondo e spesso sono dominanti nelle nazioni più colpite da conflitti.

Per affrontare questo problema, la DARPA sta lavorando su LORELEI, acronimo di Low Resource Languages for Emergent Incidents, che si differenzia dai progetti militari del passato sulle lingue poiché non ha come obiettivo la semplice traduzione, ma la decodificazione di un linguaggio. Con LORELEI, la speranza è di costruire una piattaforma sia hardware che software che possa essere usata per le lingue sconosciute, setacciando grandi quantità di parole e testi, e che produca automaticamente una spiegazione del loro significato.

Il piano della DARPA è quello di rendere disponibile LORELEI per il pubblico, in modo che possa fornire una grande quantità di dati e aiutare in alcune situazioni critiche.

In Nigeria le truppe straniere, per dare la caccia ai terroristi di Boko Haram, hanno dovuto avere a che fare con circa 44 idiomi diversi ;gli operatori sanitari accorsi per affrontare l'emergenza ebola devono curare pazienti che parlano 19 lingue africane diverse. E negli Stati Uniti, i figli di profughi provenienti dal Centro America parlano più di 20 lingue diverse. LORELEI sarebbe poi uno strumento fondamentale per le truppe americane che si trovano in luoghi come l'Afghanistan, dove per gli interpreti è spesso difficile avere a che fare con le autorità locali e con le attività di intelligence.

Pubblicità

Boyan Onyshkevych, program manager di LORELEI, ha detto a Motherboard che il sistema elaborato potrebbe permettere un'assistenza "molto più dettagliata e rapida" in situazioni del genere. Il team vuole che LORELEI sia in grado di produrre risultati nel giro di un giorno di esposizione a una nuova lingua. Lo strumento non fornirà il ponte linguistico forte di cui avrebbero bisogno gli operatori sanitari per affrontare il panico di un paziente affetto da ebola—o almeno, non all'inizio—ma permetterebbe a un lavoratore di capire da che villaggio proviene il paziente e quante persone ci vivono.

La dottoressa Bonnie Dorr, linguista presso l' Institute for Human and Machine Cognition, ha affermato che la sfida nella decodificazione di idiomi poveri di risorse è duplice. Non basta costituire un dataset, bisogna anche comprenderlo. "Nei linguaggi per cui ci sono poche risorse a disposizione non hai la minima idea di cosa ti stia davanti," ha detto a Motherboard. "Se trovi dei documenti non riesci a capire neanche di che documento si tratti."

La prima cosa da fare è raccogliere dati. Molti dati, che potrebbero provenire dalle registrazioni di un operatore umanitario che parla con un rifugiato, dalle foto di cartelli stradali scattate da un soldato, o dall'aiuto di lavoratori locali che collaborano con linguisti esperti. È inoltre fondamentale associare i dati con una quantità di metadati più ampia possibile. Per esempio, una serie di parole senza significato è molto più semplice da analizzare se viene urlata, e ancora più semplice se sai che è stata urlata da un padre a suo figlio. Un documento criptico scritto a mano è più facile da decodificare se sai che riguarda il sindaco locale.

Pubblicità

"Le persone non dicono cosa significa una cosa. Cambiano ciò che intendono dire di giorno in giorno…cambia il luogo in cui sono e addirittura gli avvenimenti principali della giornata."

Per dare un senso a tutte queste informazioni grezze, i ricercatori spesso si affidano alle regole universali comuni virtualmente a tutte le lingue umane conosciute. In frasi dichiarative brevi, ad esempio, il soggetto della frase sarà quasi sempre posto prima dell'oggetto. Questa può essere una tecnica potente se utilizzata accanto a metadati; se un algoritmo sa di trovarsi davanti a una breve frase dichiarativa e sono già segnalati il soggetto e l'oggetto, allora può iniziare a tentare di identificare le parole.

L'identificazione delle parole, tuttavia, è solo l'inizio. Il significato e la posizione anche di poche parole può permettere di fare ipotesi statistiche sull'argomento di conversazione, o sulla relazione che intercorre tra i due parlanti—ma è anche molto facile andare fuori strada. Dorr ha affermato che la sfida per i programmatori di lingue naturali è molto più ardua di quella delle classiche decodificazioni. "Le persone non dicono quello che pensano," ha affermato. "Cambiano il significato di ciò che dicono da un giorno all'altro..dove si trovano, e addirittura quali siano stati gli avvenimenti più importanti della giornata."

Una strategia è quella di considerare le lingue per cui si hanno poche risorse attraverso la lente di una lingua meglio conosciuta ad essa vicina, chiamata lingua ponte o pivot. Una lingua che condivide parte della sua storia con l'arabo, ad esempio, potrebbe condividere le sue stesse regole grammaticali. Le lingue pivot forniscono regole provvisorie che possono essere applicate per velocizzare la decodificazione, ma non sono una soluzione infallibile. In paesi come la Nigeria dove sono parlate centinaia di lingue con decine di discendenze diverse, è molto difficile utilizzare una lingua pivot—inoltre molte delle più importanti lingue pivot sono esse stesse scarsamente conosciute.

LORELEI è un grande passo avanti in questo ambito: per insegnare ai computer un nuovo linguaggio ci sono sempre voluti anni di analisi e milioni di dollari, ha affermato Onyshkevych, e "LORELEI mira a risolvere questo problema."

Il progetto dovrebbe essere ufficialmente presentato in maggio.