OpenTrad, frente a la Torre de Babel

Galarraga Aiestaran, Ana

Elhuyar Zientzia

El euskera, el catalán, el castellano y el gallego, cuatro lenguas que confluyen en un sistema: Sistema de traducción automática OpenTrad. Permite la traducción automática de textos y páginas web del castellano al euskera, gallego y catalán, así como la traducción de textos en gallego y catalán al castellano. Además, han desarrollado el sistema en código abierto. Para entendernos sin obstáculos.
OpenTrad, frente a la Torre de Babel
01/04/2006 | Galarraga Aiestaran, Ana | Elhuyar Zientzia Komunikazioa
(Foto: A. Galarraga)

El Periódico de Catalunya se publica diariamente en dos idiomas: castellano y catalán. Para ello, no tienen el doble de empleados o no dedican el doble de horas al trabajo que otros periódicos. Su secreto es un traductor automático. Los periodistas escriben el periódico en castellano y, a continuación, el traductor automático lo coloca en catalán. Dirigen el texto entre varios correctores y está dispuesto a salir a la calle junto con el de castellano.

El Periódico de Catalunya es un ejemplo significativo de la puesta en valor de los traductores automáticos. Además, el traductor que tiene el periódico no es el único traductor del castellano al catalán, sino otros muchos ejemplos. Por ejemplo, la Universidad de Alicante creó interNOSTRUM para la Caja de Ahorros del Mediterráneo. La traducción se realiza en dos direcciones y ahora permite a cualquier persona usarla gratuitamente en la web del mismo nombre. Eso sí, admite textos de hasta 16.384 caracteres.

Además, en el estado español hay un traductor automático de gallego a castellano, pero es un producto muy cerrado y limitado. ¿Y en euskera, qué? Hasta ahora poco. El grupo IXA de la Facultad de Informática de la UPV/EHU estaba desarrollando un sistema automático de traducción del inglés al euskera, pero no avanzaban tan rápido como querían.

Esa era la situación hace dos o tres años. Sin embargo, en 2004 se puso en marcha el proyecto de desarrollo de la OpenTrad. De hecho, los investigadores que desarrollaron interNOSTRUM eran conocidos por la IXA, y Eleka Ingeniería Lingüística y IXA trabajan juntos. Se unieron a trabajos similares en Galicia y comenzaron a crear un traductor automático de código abierto gracias a la subvención del Ministerio de Industria, Turismo y Comercio.

Según Eleka, Iñaki Arantzabal definió desde el principio objetivos a dos niveles: "por un lado, queríamos conseguir un buen traductor automático, rápido y de código abierto para las parejas galego-español y catalano-español y, por otro, un prototipo para traducir del castellano al euskera. Hay que tener en cuenta que el punto de partida de todas las lenguas no era el mismo: la pareja castellano-catalán estaba bastante avanzada y, en el otro extremo, para traducir automáticamente del castellano al euskera, casi todo estaba por hacer".

Cercanos por superficie

En ello, lógicamente, influye mucho la diferencia entre las lenguas. Es evidente que el castellano, el gallego y el catalán se encuentran mucho más cerca entre sí que de cualquiera de ellos. En consecuencia, es mucho más fácil conseguir un buen sistema de traducción entre las lenguas románicas que cuando el euskera está presente.

Como se observa en estos ejemplos, los traductores automáticos no sólo sirven para traducir textos sino también para navegar en el idioma elegido.

Por ello, OpenTrad cuenta con dos motores de traducción automática, uno para traducciones entre lenguas románicas, Apertium, y otro para traducir del castellano al euskera, Matxin.

Ambas se basan en las reglas del lenguaje. Existen varias formas de traducción automática, pero las principales son las que se basan en colecciones de textos previamente traducidos, es decir, corpus, y las basadas en reglas lingüísticas --orden de palabras en la frase, declinación, verbos...--.

Iñaki Alegría, de IXA, ha explicado que "los sistemas basados en reglas lingüísticas trabajan en tres fases. Primero realizan un análisis sintáctico-morfológico del texto original, luego realizan una transferencia al otro idioma y, finalmente, crean el texto en esa segunda lengua".

Para la traducción entre lenguas románicas, aunque la transferencia es superficial, se obtienen buenos resultados. Esto es lo que hace InterNOSTRUM y de ahí han partido para desarrollar el motor Apertium. En cierto modo, Apertium interNOSTRUM es una versión mejorada en código abierto.

Eso es lo que han ganado sobre todo los catalanes, que el código sea abierto. Además, OpenTrad tiene el código totalmente separado de los recursos lingüísticos. Gracias a ello, el sistema ofrece todas las facilidades para la interacción y la adaptación a las necesidades del usuario. El sistema está dispuesto a asumir todos los cambios que se quieran realizar para enriquecer y mejorar.

Apertium no sólo realiza la transferencia sintáctica. Además, tiene varios 'filtros' para afinar la traducción. Por ejemplo, es capaz de detectar estructuras propias de una lengua y darles su equivalente en la otra. En consecuencia, se consigue una traducción de mayor calidad. Por ejemplo, el traductor del dúo español-catalán tiene una fiabilidad del 95%, es decir, sólo cinco de cada cien palabras traducidas son erróneas.

Lejanos en profundidad

Sin embargo, Apertium no sirve para traducir del castellano al euskera. Las lenguas son tan diferentes que la transferencia sintáctica superficial no es suficiente. La estructura de las frases también cambia radicalmente, por lo que se necesita un motor de análisis sintáctico-morfológico profundo capaz de construir un árbol de dependencias, realizar una transferencia y producir el texto en euskera. Para ello han creado Matxin.

La IXA ha reconocido que para desarrollar Matxin han tenido que hacer un "duro trabajo", y el resultado no es tan bueno como lo que ofrece Apertium en la traducción entre las lenguas románicas. En cualquier caso, han conseguido el objetivo marcado inicialmente, ya que se trataba de crear infraestructura.

Análisis, transferencia y generación.
Grupo IXA
Por otro lado, la calidad de la traducción en el desarrollo del traductor automático ha sido una de las principales preocupaciones, pero también se ha ocupado de la velocidad del sistema. En este sentido, han reconocido su satisfacción. Esto permite recorrer las páginas web en el idioma traducido. Según un ejemplo de Arantzabal, siendo el original el castellano, existe la posibilidad de navegar en gipuzkoa.net en catalán y gallego a través de OpenTrad.

Mirando hacia delante

Hasta el momento, se ha conseguido un buen y rápido sistema automático que traduce en ambos sentidos para las parejas galego-español y catalano-español, así como un prototipo para traducir del castellano al euskera. En palabras del responsable de Eleka, "hemos conseguido el objetivo".

Pero no tienen intención de quedarse ahí. "Queremos seguir mejorando y completando. Una forma de mejorar los resultados es centrarse en ámbitos concretos. En cada ámbito se utiliza un lenguaje propio, con menos problemas de ambigüedad que actuando en general. Por lo tanto, la calidad aumenta adaptando al traductor a un campo, por ejemplo, incorporando el vocabulario terminológico correspondiente". Con todo ello, esperan mejorar su fiabilidad.

Además, pretenden añadir otros a la tecnología por regla, en concreto, quieren utilizar corpus paralelos. "De este modo, si se quiere traducir una frase, primero observará si la misma ya está traducida o si hay algo parecido. Si hay algo anterior, se partirá de ahí para traducir. En cambio, si no hay nada similar, utilizará tecnología de regla".

Los resultados son mejores si el traductor se adapta a un área. De hecho, en cada ámbito se utiliza un lenguaje propio y no son tantos problemas de ambigüedad.
A. Galarraga

Además de mejorar y complementar, quieren crear un traductor automático para traducir del euskera al castellano. Gracias a ello, los externos tendrían la oportunidad de conocer lo que se crea en euskera. Otro de los objetivos a futuro es poder traducir del inglés al euskera.

Para dar estos avances, Arantzazu espera contar con el apoyo del Gobierno Vasco. De hecho, hace unos años el Gobierno Vasco encargó a una empresa catalana el desarrollo de un prototipo de traducción automática. Ahora, OpenTrad es el sistema más avanzado del Estado. Por eso dice Arantzazu: "queremos convencer al Gobierno Vasco para impulsar nuestro sistema. Creemos que al menos no se puede quedar fuera".

· http://www.opentrad.net

· http://apertium.sourceforge.net

· http://matxin.sourceforge.net

Servicios
Participantes y reparto de tareas y responsabilidades
Eleka Ingeniaritza Linguistikoa, S.L. : coordinador y responsable de la integración de todos los sistemas.
Grupo Transducens de la Universidad de Alicante: Desarrollo del motor Apertium.
Grupo IXA de la UPV: Desarrollo motor Matxin.
Universidad Politécnica de Cataluña: análisis del castellano y recursos lingüísticos del catalán.
Universidad de Vigo: recursos lingüísticos del gallego.
Imaxin Software empresa: verificación del apartado gallego.
Elhuyar Fundazioa: acreditación de la sección de euskera y recursos lingüísticos en euskera.
Iñaki Alegría, coordinador del grupo IXA: "El mayor problema es la ambigüedad"
El grupo IXA de la Facultad de Informática de la UPV/EHU ha sido el encargado de desarrollar el motor de traducción del castellano al euskera. En consecuencia, saben perfectamente cuáles son las principales dificultades.
Iñaki, ¿os ha tocado el trabajo más complicado?
La verdad es que no es fácil, sobre todo en comparación con la traducción entre las lenguas románicas. Los catalanes estaban más avanzados que nosotros en esta materia. Tenían una base sólida y, además, tienen suficiente transferencia superficial porque están traduciendo entre lenguas emparentadas.
Nuestro caso es muy diferente. La verdad es que nosotros tampoco hemos partido de cero, llevamos años investigando y trabajando este tema y además nos hemos basado en FreeLing.
¿Qué es el FreeLing?
(Foto: R. Carton)
FreeLing es un analizador para el castellano creado por la Universidad Politécnica de Cataluña. Este analizador realiza todo el árbol sintáctico, ya que no es suficiente un análisis superficial para traducir el euskera. El orden de los elementos dentro de la frase es muy diferente, por lo que tiene que hacer todo el árbol para luego realizar la transferencia y construir la frase correctamente en euskera.
Además de la sintaxis o la costura, el dolor de cabeza también os dará el léxico...
Claro. Las otras lenguas son similares, pero entre el euskera y el castellano hay muchas más acepciones ambiguas. Una palabra en castellano puede tener dos o más acepciones en euskera, y el problema es que hay que seleccionarla. Existe, pues, una dificultad léxico-semántica. Y luego está la dificultad morfológica, es decir, de las preposiciones en castellano hay que elegir el caso en euskera.
¿Es posible dar un ejemplo?
Te pongo el ejemplo de siempre: zapatos de piel de señora . ¿De quién es la piel? Para una máquina, el cuero puede ser femenino, es un problema sintáctico. Además, ¿de dónde, dónde, dónde, quién, la aposición? Es ambiguo al caso del euskera. Aparte de esto, piel puede ser cuero o piel, y si la máquina escoge la piel está mal.
Estos son los principales problemas. Entre las lenguas emparentadas, estos problemas son mucho más ligeros, pero a nosotros nos dan mucho trabajo. Todavía estamos trabajando para solucionar estos y otros problemas, pero al menos hemos creado la base y tenemos la intención y el deseo de seguir adelante.
Galarraga de Aiestaran, Ana
Servicios
218
2006
Seguridad
023
Software
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila