¡No te rompas la cabeza, Matxin!

Iñurrieta Urmeneta, Uxoa

EHUko IXA taldeko ikertzailea

Aduriz Agirre, Itziar

EHUko IXA taldeko ikertzailea

Díaz de Ilarraza Sánchez, Arantza

EHUko IXA taldeko ikertzailea

Labaka Intxauspe, Gorka

EHUko IXA taldeko ikertzailea

Sarasola Gabiola, Kepa

EHUko IXA taldeko ikertzailea

ez-burua-hautsi-matxin
Figura . Un ejemplo del proceso de traducción de Matxin (01-02-2016).

Para quienes vivimos en sociedades bilingües, son muy habituales los errores cometidos por pensar en una lengua y hablar en otra. Muchos de nosotros nos enrojeceríamos en alguna ocasión, por ejemplo, cuando éramos pequeños viendo risas a nuestros padres, gracias a quien nos dio ¡No por eso! porque le respondimos tranquilamente. ¿Te has hecho daño al niño que ha caído en la calle? Si se preguntara, la mayoría de los vascos mayores no nos sorprenderíamos tanto, porque a pesar de que la frase parezca extraña, enseguida pensaríamos que esa persona, probablemente, es un nuevo euskaldun. Y es que los que hablamos de más de una lengua sabemos, con la experiencia, que lo aprendido en una de ellas no siempre sirve para otra cosa: no por eso no es por eso en castellano, sino de nada; y te has hecho daño no es un dolor en euskera, sino que te ha hecho daño.

En estos casos, profesores, padres o amigos nos corrigen los errores para que aprendamos cuál es la forma correcta para la siguiente. Pues aquí también hablaremos de alumnos y profesores, pero no de cualquier tipo. El alumno tiene más de once años, se llama Matxin y no tiene huesos ni carne, es un traductor automático. Utiliza un montón de normas para aprender idiomas y traducir al euskera lo leído en castellano, pero muchas veces le dan traducciones que quedan fuera de esas normas, y el trabajo del profesor es ayudarle a que no se rompa la cabeza, que no se equivoque con tanta frecuencia.

Matxin, traductor

En la actualidad, Matxin traduce del castellano al euskera. Se basa en una serie de normas gramaticales y dos diccionarios bilingües, de los que obtiene información para pasar de un idioma a otro. Desarrolla su trabajo en tres fases: análisis, transferencia y generación (Mayor et al., 2009).

Como se puede apreciar en la figura 1, en primer lugar, analiza el texto en castellano, o en inglés, morfológica y sintácticamente: el lema de cada palabra (por ejemplo: vi 8 ver), la categoría (verbo, nombre, adverbio...), la función sintáctica (sujeto, objeto directo, modificador...) y otras características. Posteriormente, en la fase de transferencia, compensa las palabras de la frase original y ajusta la información gramatical. Y por último, en la fase de creación, crea el texto en euskera a partir de la información obtenida en la transferencia: crea la forma correspondiente a cada lema (por ejemplo: vi con 8) y ajusta el orden de las palabras.

Sin embargo, no todas las traducciones pueden ser traducidas correctamente a través de estas normas y diccionarios generales, lo que da problemas a Matxin. Ver, si no, qué frases produce:

(1) ES: Eragin handia izan zuen.

EU (Matxin): Suministró un gran efecto.

EU (correcto): Tuvo gran influencia.

Unidades Fraseológicas (UF), fuera de las normas gramaticales generales de Matxin

De hecho, hay algunas combinaciones de palabras que quedan fuera de las reglas generales de las lenguas, entre ellas las Unidades Fraseológicas (Gurrutxaga, 2016). Corpas (1997) y Urizar (2011), entre otros, los han clasificado en tres grupos:

1. Enunciados fraseológicos: pueden utilizarse como tales sin entrar en una frase y sólo en determinadas circunstancias. De este grupo son muchas gracias y no como por eso.

2. Locuciones: no son frases completas y el significado de la combinación no es la suma de los significados de las palabras combinadas. El significado de las intervenciones, por ejemplo, no se corresponde con lo que normalmente tienen las manos y los comisionados.

Figura . Tres Unidades Fraseológicas (UF) con la palabra cuello, en la cinta publicada por Antton Olariaga el 15-01-2016 en Berria.

3. Encolaciones: éstas tampoco son frases enteras, al menos una de las palabras conserva su significado y, para expresar un significado concreto, con una palabra de combinación se utiliza generalmente otra determinada, y no otras equivalentes. Por ejemplo, nos dedicamos a la atención y no a la atención localizada o similar.

Además, las UF varían mucho de una lengua a otra (Sanz, 2015), por lo que a menudo no son fáciles de traducir. Tomemos como ejemplo los mencionados en la clasificación:

• Como hemos dicho antes, no por eso usamos nada en castellano y no por eso.

• Participar es decir, tomar parte o participar (en ningún sitio se mencionan mangos, manos).

• Normalmente usamos atención como contraprestación por la atención prestada.

Es más, si traemos este último ejemplo al francés y al inglés, veremos que los verbos no coinciden ni con los del euskera ni con los del castellano: en francés, faire attention (prestar atención); y en inglés, pay attention (prestar atención).

Por lo tanto, si su aprendizaje es laborioso para el ser humano, imagínate lo difícil que es traducir automáticamente para un ordenador, teniendo en cuenta que los diccionarios en los que se basa son limitados y las reglas gramaticales muy generales.

En el diccionario que utiliza Matxin existen varias entradas de varias palabras que a veces dan lugar a traducciones directas:

(2) ES: Ikasle batzuk irakasle pilota egin zuten.

EU (Matxin): Algunos alumnos difuminaron al profesor.

(3) ES: 13:00

EU (Matxin): Acabo de hacer la piedra.

Lamentablemente, no son muchas las entradas y no siempre se utilizan correctamente. Veamos, por ejemplo, qué ocurre si cambiamos ligeramente los términos de los ejemplos 2 y 3:

(4) ES: Irakasle ezin zuen ikasle egiten ari ziren pilota.

Figura . Aspecto de la interfaz de las cóncavas.

EU (Matxin): El profesor no podía creer la pelota que estaban haciendo los alumnos.

EU (correcto): El profesor no podía creer cómo se difuminaban los alumnos.

(5) ES: Acabo de fregar el suelo.

EU (Matxin): Acabo de hacer suelo de piedra.

EU (correcto): Acabo de limpiar el suelo.

Matxin tiene dos dificultades principales: por un lado, conocer las UF en castellano o en inglés, y por otro, traducirlas al euskera. Actualmente, sólo se detectan correctamente las combinaciones de palabras que siempre están seguidas y en el mismo orden, por lo que si separamos las palabras de la combinación o las cambiamos de orden, se tratan como palabras sueltas y no como si formaran parte de una UF (Ejemplo 4). Asimismo, para la creación de frases en euskera, a menudo falta información, ya que a cada entrada se le concede un único pago en el diccionario de Matxin. De ahí que la frase del ejemplo 5 haya sido erróneamente traducida, ya que no se ha tenido en cuenta que al verbo fregar, cuando el suelo va acompañado del sintagma nominal, limpiarle que le corresponde el pago y no el de piedra.

Konbitzul, nuevo profesor de Matxin

Por lo tanto, como ponen de manifiesto los ejemplos hasta ahora, si Matxin va a traducir correctamente los UF, la ayuda es fundamental, y para ello se ha creado Konbitzul, la herramienta que le va a enseñar a traducir combinaciones de nombres+verbos.

Konbitzul es una base de datos pública que recoge la información obtenida de un análisis lingüístico. Contiene datos sobre las características de las combinaciones de palabras con nombres y verbos, y sus contraprestaciones, hasta el momento en el par de idiomas español-euskera. Las combinaciones nominal+verbales de este estudio se han agrupado en tres fuentes: El diccionario bilingüe Elhuyar, los gigantescos conjuntos de traducciones a mano y el diccionario DiCE de encolaciones en castellano (Alonso, 2004).

La mayor parte de la información trabajada está disponible en Internet y lo que falta también estará a disposición de los usuarios en breve. De hecho, la interfaz de la base de datos es de tipo buscador y cualquier usuario puede realizar búsquedas fácilmente, escribiendo lo que se desea buscar y mostrando una lista de combinaciones que coinciden con lo escrito, junto con los pagos. A continuación, si se clica en compensación, se puede ver más información lingüística (figura 3).

Sin embargo, como ya se ha comentado anteriormente, la principal tarea de Konbitzul es ayudar a Matxin a afrontar dos retos: por un lado, conocer las UF de la lengua de origen y por otro, traducir al euskera. Supongamos que le dan las siguientes frases:

(6) El tema despertó interés en los oyentes.

(7) Interes handia egin zuen gaia oyentes.

Figura . Interfaz de Matxin y un ejemplo (02-02-2016).

-

La UF –despertar interés– que aparece en estos tres ejemplos todavía no está en el diccionario de Matxin, por lo que actualmente no trata esta combinación de palabras como UF (Figura 4). Sin embargo, aunque estuviese en el diccionario de Matxin, con el método que ha utilizado hasta ahora, sólo lo reconocería en el ejemplo 6, donde las dos palabras aparecen en el mismo orden y sin otros elementos.

Sin embargo, con la ayuda de Konbitzul sabrá que despertar interés es una UF y que además es una combinación flexible, es decir:

• Que entre los dos componentes de la combinación pueden aparecer otras palabras.

• El orden de las palabras es variable.

Así, al analizar la frase de la lengua de origen, se tendrá en cuenta toda esta información y será capaz de saber que en los ejemplos 7 y 8 también hay una UF. Un experimento demuestra que gracias a la información de la base de datos se conocen casi un 30% más de UF que con el método anterior.

Por otro lado, una vez que se hayan detectado las combinaciones, hay que traerlas al euskera y para ello Matxin también necesitará información adicional. Una vez más, Konbitzule resolverá sus dudas:

• Por el verbo despertar, encender (y no despertar).

• Por el nombre de interés, utilízalo y ponlo en limitado.

Así, en lugar de crear frases como la que despertó un gran interés, podrá crear frases como la que despertó el Gran Interés. La información para esta segunda tarea aún no se ha integrado en el sistema, pero se ha realizado el análisis lingüístico, por lo que es lógico pensar que en breve podremos ver los resultados en la red.

Llenando el saco para satisfacer la curiosidad

Sin embargo, el trabajo no termina ahí, claro, porque Matxin es un estudiante de gran curiosidad. El siguiente paso será recopilar información para traducir las UF en inglés, y a partir de ahí Konbitzule deberá seguir recopilando datos para ir llenando el saco de forma progresiva, de forma que el alumno, a medida que vaya creciendo, sea cada vez mejor traductor.

Bibliografía

Corpas, G.: Manual de fraseología española. Editorial Gredos (1997).
Gurrutxaga, A.; Alegria, I. & Artola, X.: “Caracterización automática de la idiomaticidad: combinaciones nombre+ verbo”. Revista de Ciencia y Tecnología de la Universidad del País Vasco (2016).
Mayor, A.; Alegría, I.; Díaz de Ilraza, A.; Lava, G.; Lersundi, M. & Sarasola, K.: “Matxin, primer traductor automático al euskera”. Senez: revista de traducción 37 (2009), 197-220.
Sanz, Z. (2015): “Estudio de traducción de unidades fraseológicas traducidas del alemán al euskera. Descripción de la tesis”. Senez: revista de traducción 46 (2009), 211-230.
Urizar, R.; Alegría, I.; Odriozola, J. C. & Ezeiza, N.: “Tratamiento computacional de unidades lexicales plurilingües en euskera”. Anuario del Seminario de Filología Vasca ”Julio de Urquijo”, 43(1-2) (2011), 891-908.

Gehitu iruzkin bat

Saioa hasi iruzkinak uzteko.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila
MAIER Koop. Elk.
KIDE Koop. Elk.
ULMA Koop. Elk.
EIKA Koop. Elk.
LAGUN ARO Koop. Elk.
FAGOR ELECTRÓNICA Koop. Elk.