La traducción automática es una tecnología conocida. Cuando navegamos por Internet lo utilizamos con frecuencia para comprender textos escritos en lenguas extranjeras, o por qué no, o como ayuda para traducir.
Los servicios que encontramos en Internet son muy variados, la mayoría gratuitos, y aunque aparentemente parecen iguales, pueden ser herramientas basadas en diferentes tecnologías o se han ido adaptando a lo largo del tiempo, y este cambio ha sido transparente para los usuarios. Para poner en marcha un sistema de traducción automática existen, por tanto, varias opciones: los sistemas basados en reglas (RBMT) requieren de recursos o conocimientos lingüísticos; los basados en la estadística (SMT) necesitan colecciones de textos ya traducidos, y con cierta capacidad de aprender a traducir mediante técnicas estadísticas; y por último, los sistemas NMT o basados en redes neuronales, que han sido muy conocidos en los últimos tiempos.
Los sistemas basados en redes neuronales imitan el funcionamiento del cerebro humano y surgen de grandes colecciones de información, pero son más complejos que los sistemas basados en la estadística. Esta tecnología se basa en un modelo matemático (dentro del deep learning) que trata de imitar el funcionamiento de las neuronas del cerebro y que, a pesar de haber pasado varios años desde su conocimiento, está adquiriendo fuerza. De hecho, la puesta en marcha de este tipo de sistemas requiere, además de grandes recopilaciones de datos, dispositivos de alta capacidad de computación, y con los ordenadores y tarjetas gráficas que tenemos en la actualidad se ha conseguido crear este tipo de sistemas de forma eficiente.
Los sistemas de traducción automática han ido evolucionando a lo largo del tiempo y Google es un ejemplo de ello: sin que los usuarios se den cuenta, se han ido adaptando a nuevos modelos y algunos de los traductores que usamos ya están basados en redes neuronales. Pero no pensemos que esta tecnología sólo está en manos de los gigantes de Internet, estamos investigando en este campo y trabajamos con el euskera. De momento estamos realizando experimentos de investigación, pero los primeros resultados obtenidos son esperanzadores. El objetivo es poner en marcha en breve un sistema basado en redes neuronales que traducen al euskera.
Matxin (http://matxin.elhuyar.eus) es pionera en traducir del castellano al euskera. Se trata de un sistema de traducción automática surgido de una tesis doctoral en 2007 (Aingeru Mayor Martínez, UPV/EHU), el primer traductor automático al euskera, y desde entonces se está adaptando progresivamente a los nuevos tiempos en una era digital tan importante como las tecnologías lingüísticas. Se basa en las reglas, por lo que tiene un conocimiento de recursos lingüísticos que le permite traducir. En concreto, tiene el conocimiento necesario para comprender textos en castellano y, de alguna manera, traducirlos al euskera. Para ello utiliza diccionarios y reglas sintácticas, entre otros.
En los últimos tres años estamos trabajando en el proyecto Consumer.eus Fundación Eroski, el equipo de investigación de la UPV Ixa y Elhuyar. Los contenidos que hasta ahora sólo se podían leer en castellano se traducen automáticamente al euskera y se utiliza Matxin para realizar este trabajo; es un traductor sólido, basado en software libre, que permite adaptar fácilmente los recursos lingüísticos y, tras su aplicación, se percibe en el mismo momento la mejora de los resultados. Para traducir los contenidos de la web consumer.eus nos hemos centrado en el ámbito de la alimentación, adaptando los recursos lingüísticos que utiliza el traductor automático. El efecto de las adaptaciones realizadas se ha constatado de forma inmediata: la adecuación de los recursos ha ido acompañada de una mejora de la calidad del sistema en los textos sobre alimentación.
Sin embargo, es evidente que la calidad de las traducciones generadas automáticamente no siempre es esperada, o al menos no es directamente editable. Por ello, en este mismo proyecto se ofrece al lector la posibilidad de adaptar las traducciones, pudiendo participar cualquier persona. Consumer.eus permite corregir artículos y recetas en euskera y se conserva el trabajo realizado. ¿Para qué? Mejorar el traductor con los datos recogidos. Con la información recibida y el aprendizaje automático se pondrá en marcha un nuevo sistema de traducción automática especializado en la traducción de textos alimentarios.
Avanzar en los sistemas de traducción automática es un reto enorme y el camino para mejorar la calidad de los resultados está lleno de experimentos: cuando empezamos a trabajar con sistemas basados en reglas, el trabajo manual de los lingüistas era imprescindible. El lingüista tenía que conocer las lenguas de origen y de destino del traductor y crear reglas para hacer un puente interlingüístico (a nivel morfológico y sintáctico, por ejemplo). Empezar de cero un sistema de estas características es, por tanto, una tarea inmensa. Sin embargo, la creación de sistemas basados en la estadística o el aprendizaje automático no requiere necesariamente de conocimientos lingüísticos (al menos para crear un modelo sencillo).
En los últimos años escuchamos con frecuencia el concepto de Big Data, que se utiliza para referirnos a los inmensos conjuntos de datos disponibles. De ellos se extrae información y, en su caso, se realiza el correspondiente estudio. Las técnicas de estudio mencionadas en este artículo no se aplican únicamente a la traducción automática, sino que el concepto de Big Data se utiliza también para otros procesos de aprendizaje o estudio. Parece, pues, que es fácil crear sistemas de traducción cuando tenemos datos disponibles, pero en este caso también encontramos limitaciones.
La preparación de conjuntos de datos para aprendizaje automático o profundo (machine learning, deep learning) no suele ser a menudo fácil. Debemos tener en cuenta que la creación de modelos matemáticos requiere de un conjunto de frases ya traducidas: las traducciones deben ser de calidad y el conjunto de datos debe ser grande. En teoría, cuanto mayor sea el número de datos utilizados para crear el sistema, mejor será el resultado del traductor.
Sin embargo, parece que se ha llegado a la cima con los sistemas basados en la estadística: aunque el conjunto de datos utilizados para el aprendizaje se amplíe, el resultado del traductor no mejora en la misma proporción. Por eso estamos investigando en sistemas basados en redes neuronales para superar esta barrera y avanzar en el campo de la traducción automática.