La magia límites de la traducción automática

Cortés Etxabe, Itziar

Elhuyarreko itzulpengintza-teknologien arduraduna

itzulpen-automatikoaren-magia-eta-mugak
Ed. Stockmonkeys.com/CC-BY

Por definición, la traducción automática es un sistema informático que traduce de un idioma a otro, sin la intervención humana durante el proceso de traducción. Esta traducción, que se produce automáticamente, puede utilizarse como medio de comprensión o traducción de textos, lo que puede ser debido a la confusión frecuente entre sistemas de traducción automática y diccionarios. Pero ambos recursos tienen diferencias. Por ejemplo, los resultados que obtenemos al realizar búsquedas en los diccionarios han sido elaborados manualmente por profesionales. En cambio, en los sistemas de traducción automática, aunque los datos que se utilizan como base son elaborados por profesionales, la respuesta siempre la genera la propia máquina, que se genera automáticamente. Sin embargo, la principal diferencia desde el punto de vista de los usuarios comunes es que los sistemas de traducción automática pueden traducir frases completas o palabras.

Entre los sistemas de traducción automática más conocidos se encuentra Google Translator. Este sistema permite traducir de forma automática hasta 70 idiomas, entre los que se encuentra el euskera desde 2010. ¿Pero por qué salen traducciones curiosas en este tipo de sistemas?

Cuando viajamos por Internet, es bastante habitual encontrar la información que buscamos en otro idioma y utilizar un sistema de traducción automática para comprender dicha información. Por ello, el usuario debe conocer las ventajas e inconvenientes del uso de la traducción automática. Un sistema de este tipo no siempre proporciona una traducción exacta y está a disposición del usuario de qué hacer con esa traducción obtenida automáticamente. Los resultados obtenidos de forma automática han sido vistos en la publicidad y en otros carteles.

Algunos ejemplos conocidos son: "Autobuses, mañana y tarde", en euskera "Autobuses mañana y tarde"; "Combinación de trenes", "Subcomisión de trenes"; y "Primera planta", "Primera planta".

En el mismo mes de enero, Google mezclaba los sistemas de traducción automática de Guardiola e Iniesta con sus países de origen, bien conocidos en el mundo del fútbol, en la traducción del catalán al inglés. Pero, ¿por qué surgen de forma automática este tipo de traducciones?

Los sistemas de traducción automática se pueden clasificar en dos grupos en función de las técnicas utilizadas para su creación: sistemas basados en la estadística y sistemas basados en reglas.

El Google Translate antes mencionado es uno de los sistemas de traducción automática basados en la estadística más conocidos. Este tipo de sistemas se basan en modelos estadísticos que se generan a partir de la utilización de colecciones de textos. Por ejemplo, si queremos crear un sistema entre el euskera y el castellano, deberemos basarnos en una colección de textos del tipo: cada frase en euskera deberá ser traducida al castellano. A partir de estas colecciones de textos se crean unos modelos estadísticos que serán el núcleo del sistema de traducción automática.

En la unidad Elhuyar de Lengua y Tecnología también disponemos de este tipo de sistemas, y este año estamos implantando un sistema de este tipo en el MINHAP (Ministerio de Hacienda y Administraciones Públicas de España). Las páginas web utilizarán este sistema para traducir del castellano al euskera y al inglés, y revisarán los resultados obtenidos automáticamente mediante un repaso manual.

Por el contrario, los sistemas basados en reglas tienen una base lingüística, es decir, se basan en diccionarios y en recursos como las reglas relacionadas con la lengua. Aunque habitualmente ofrecen resultados más razonables que los estadísticos, este tipo de sistemas también presenta dificultades y resultados raros. Las palabras polisémicas, por ejemplo, dan bastante trabajo a la hora de volver. Tomemos, por ejemplo, la palabra "tiempo" en castellano, con doce acepciones en euskera (hiztegiak.elhuyar.org/es/tiempo): tiempo, tiempo...; hay que enseñar al sistema de traducción automática a elegir cuál de las acepciones es más adecuada.

Matxin es un ejemplo de un sistema que traduce automáticamente del castellano al euskera a partir de las reglas.El sistema Matxin (http://matxin.elhuyar.org) ha sido desarrollado conjuntamente por Elhuyar Hizkuntza eta Teknologia y el grupo Ixa de la UPV/EHU y, además de traducir el mero texto, sirve para traducir documentos y páginas web de diferentes formatos. Sin embargo, tal y como se ha mencionado anteriormente, cuando utilizamos la traducción automática, no debemos olvidar que los resultados generados automáticamente deben ser revisados.

Para ver la diferencia entre sistemas de base estadística y lingüística, he aquí un par de ejemplos. Por ejemplo, Google Traslat traduce la frase "El hombre que vino era mi tío" de la siguiente manera: "El hombre vino mi tío" y Matxin 2.0: "El hombre que vino era mi tío". Por otro lado, Google Translat devuelve la frase "Han dicho que mañana va a hacer buen tiempo" y Matxin 2.0, "Han dicho que mañana va a hacer buen tiempo".

Cuando hablamos de traducción automática, hay quien nos mira con recelo. Sin embargo, comprender el tema puede cambiar el enfoque de la utilización de este recurso. Al decir que la traducción se realiza automáticamente, no queremos decir que el resultado sea una traducción directa, es decir, una traducción profesional. Lo que queremos transmitir es que ofrecerá un resultado generado automáticamente, que transforma un texto de una lengua elegida por nosotros a otra distinta. Si se solicitara una opinión sobre los sistemas de traducción automática, obtendríamos, lógicamente, respuestas en función del usuario que esté utilizando el sistema. Por tanto, el uso consciente de este tipo de recursos es imprescindible.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila