Esto es lo que frena la creación de un traductor universal

Google y Microsoft compiten por ser el primero en crear una torre de Babel portátil, pero aun falta mucho camino.

por Matthew Braga

20.1.15

Los nuevos esfuerzos de Google y Microsoft son cool, pero están muy lejos de la ciencia ficción. Foto: Mika Hiltunen

En el futuro que nos muestra la ciencia ficción existe un aparato que permite traducir tus dulce voz en un lenguaje que pueden entender todos y en el lugar que sea. Esta idea aun hoy es muy difícil que exista.

Sin embargo tanto Microsoft como Google están en las primeras etapas de hacer realidad la traducción en tiempo real. Microsoft ha estado probando una nueva característica llamada Skype Translator que puede traducir en vivo una conversación de voz o video desde el español a una voz sintetizada en inglés (y viceversa). Google no quiere quedarse atrás, de acuerdo al New York Times, por lo que pronto actualizará su aplicación Google Translate con la opción de detectar si alguien está hablando un lenguaje popular y traducir su discurso, también en tiempo real.

Es algo fascinante. Imagina estar viajando por cualquier lugar del mundo sin tener miedo de ser incomprendido, pero hacer que este tipo de tecnología funcione rápido y de forma precisa es un puzzle que ninguno de los dos ha resuelto.

"La razón por la que la traducción en tiempo real es difícil para nosotros es porque depende de las probabilidades" me dijo Gerald Penn, asociado al Departamento de ciencia computacional de la Universidad de Toronto y especialista en procesamiento natural del lenguaje.

En los sistemas modernos de reconocimiento del habla, un computador está entrenado en un tipo de modelo de lenguaje. Esencialmente es una base de datos de lo que las personas son más propensas a decir y en qué orden. Usando este modelo, un computador reúne los datos del habla a través de un micrófono y hace algunos educadas conjeturas sobre lo que realmente se dijo.

"El acercamiento moderno es no hacer las conjeturas inmediatamente" explica Penn, "si no que coleccionar la evidencia, darle jerarquía, asignarle puntos y llevarla hacia la realidad". El desafío es realizar este proceso de forma rápida y precisa, como para crear la ilusión de estar teniendo una conversación donde la traducción ocurre en tiempo real.

Parte de la razón por la que el software de reconocimiento de voz (como la búsqueda de voz de Google o Siri de Apple) parece reconocer el habla y convertirla tan rápido a texto, dice Penn, es porque el espacio de búsqueda es limitado. En otras palabras, las personas tienden a usar un vocabulario moderado cuando hacen búsquedas, entonces el modelo de lenguaje de Google está orientado a esto.

Y no es sólo que sean son pocas las palabras que el sistema necesita reconocer, lo que significa que el sistema puede hacer conjeturas más rápidamente, también la entrada de voz es de mejor calidad. La gente conversa más lento y enuncie mejor porque esta es la forma en que las personas tienden a hablar con las máquinas.

En un escenario de traducción de lenguaje, el proceso de reconocimiento del habla es más complejo. La diferencia más notoria es que en vez de entrenar al computador en un modelo de lenguaje limitado a las consultas, el computador debe ser entrenado con un modelo de habla tradicional de mayor alcance. El desafío, de acuerdo a Penn, es averiguar cuán grande será el espacio de búsqueda, cuantas hipótesis puede soportar el sistema al mismo tiempo, cuantas soluciones puede mantener en su memoria y compensar entre rapidez y precisión.

La calidad del audio también es un problema, sobretodo porque las conversaciones entre dos personas casi nunca suceden en el vacío. Existe ruido ambiente, quizás un niño gritando o la sirena de un auto de la policía. Quizás uno de los participantes está muy lejos del micrófono o su pronunciación de alguna palabra no es perfecta. En general las personas hablan más rápido y casual entre ellas que cuando hablan con una máquina. "Todas estas cosas dan paso a los errores en lo que fue realmente detectado" dice Penn

Y encima de todo esto está el desafío de la traducción misma. En estos momentos la traducción del lenguaje es muy buena, asumiendo que ocupas un traductor online con frases completas o párrafos de texto. Pero en la traducción en tiempo real este no es el caso y tampoco puedes hablarle al sistema de traducción palabra por palabra. El contexto en el lenguaje es clave y mientras más rápido un sistema de reconocimiento del habla pueda reconocer las secuencias de las palabras, la traducción será más precisa y la traducción será más rápida.

A pesar de todo esto, lo que han logrado Google y Microsoft no es menor. Pese a que la experiencia es "como si dos vendedores telefónicos ocuparan Walkie-Talkies", según la describió Quentin Hard del New York Times, es una tentadora idea de lo que está por venir.

O, como lo diría Google Translate: "it's a tantalizing glimpse of what's to come".

Tagged:motherboard showtraducciónaprendizaje de las máquinasreconocimiento de la vozreconocimiento del hablaTechMotherboard

FYI.

This story is over 5 years old.

Esto es lo que frena la creación de un traductor universal

Newsletter de VICE en español