Portal de diccionarios autoconstruidos

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En el departamento de I+D de las Tecnologías Lingüísticas de Elhuyar hemos estado investigando con una nueva tecnología en los últimos años, utilizando un lenguaje de puente para crear automáticamente diccionarios para nuevos pares de lenguas. Y para poner a disposición del público los resultados de esta investigación, hemos puesto a disposición del público el Portal de Diccionarios Automáticos online con 5 nuevos diccionarios bilingües.
automatikoki-eraikitako-hiztegien-ataria 400

Si hay un recurso lingüístico básico, eso son diccionarios. Y entre los diccionarios, los bilingües son muy necesarios en muchos casos: en el aprendizaje de idiomas, en la traducción... En la sección de Tecnologías Lingüísticas de Elhuyar también contamos con diccionarios bilingües para traducciones automáticas, búsqueda multilingüe...

Sin embargo, la elaboración de diccionarios es costosa. Por ello, los diccionarios bilingües en euskera no son tan abundantes como quisiéramos, y lo mismo ocurre con otras lenguas minoritarias. Normalmente existen diccionarios para lenguas en contacto (otras lenguas locales o cercanas) o para las principales lenguas internacionales. Pero no se hacen para otras lenguas minoritarias o para las lenguas mayoritarias lejanas, lo que pone en desventaja a lenguas minoritarias como el euskera. Por ejemplo, en las posibilidades de aprendizaje de la lengua por parte de la población inmigrante: no es fácil aprender euskera directamente a partir de la lengua propia, siempre con el castellano, inglés o francés como puente, por lo que antes hay que aprender uno de ellos...

Puentes para crear diccionarios

El lenguaje puente es una desventaja a la hora de aprender un idioma, pero esta idea puede aprovecharse para crear nuevos diccionarios de forma sencilla y económica. De hecho, casi todas las lenguas tienen algún vocabulario bilingüe con una lengua “grande” (normalmente inglés). Y podemos utilizar dos diccionarios de este tipo, tomando esta lengua “grande” como puente, para construir un diccionario entre dos nuevos pares de lenguas. Se trata de la técnica del pivotaje, que consiste en la utilización del lenguaje como pivote. Explicándolo de forma sencilla, si coloca el euskera-inglés en un diccionario etxe => house y el inglés-alemán en un diccionario house => haus, concluimos entonces que etxe => haus. Y así podemos construir un diccionario euskera-alemán.

En el departamento de I+D de las Tecnologías Lingüísticas de Elhuyar hemos estado investigando con esta técnica en los últimos años con el objetivo de crear nuevos diccionarios entre el euskera y otras lenguas. A la vista del ejemplo anterior, parece que la técnica es muy sencilla, pero este ejemplo es muy simple, porque en la realidad una palabra puede tener múltiples significados y cada uno de ellos puede tener varias contraprestaciones. Esto supone que un simple encadenado de los diccionarios genere muchas equivalencias erróneas, como se observa en el ejemplo de la figura.

Ed. Elhuyar

Por tanto, la dificultad de esta técnica radica en que para crear un diccionario de calidad es necesario detectar y eliminar automáticamente esas equívocas erróneas. Para ello se utilizan dos métodos. El primero narra el número de caminos que hay entre dos palabras; cuantos más caminos, más probabilidad de que la equivalencia sea correcta. El segundo mide la semejanza de los contextos en los que se encuentran las palabras en los corpus de ambas lenguas; cuanto más se parecen los contextos, más posibilidades de que sean equivalentes. Y, por supuesto, para medir la semejanza de los contextos se necesita un diccionario, puesto que se encuentran en diferentes lenguas, para lo que se utilizan las certezas obtenidas con el primer método.

La aplicación de estas técnicas de limpieza, al igual que cualquier método automático en tecnologías lingüísticas, nunca consigue resultados perfectos, es decir, siempre habrá una tasa de error. Esta tasa de error que se consigue es muy variable, ya que depende de varios factores (idiomas, diccionarios utilizados, corpus utilizados, etc.), pero algunas mediciones indican que el porcentaje de resultados correctos puede variar entre un 60-80%. Evidentemente, no son diccionarios perfectos, pero es mejor que no tener nada.

Portal de diccionarios automáticos

Utilizando los métodos mencionados, hemos creado cinco diccionarios bilingües en euskera, seleccionados 5 de las principales lenguas de los tres continentes (África, Asia y Europa): euskera-árabe, euskara-swahilia, euskara-txinera, euskara-hindia y euskara-alemán. En todos ellos se ha utilizado el inglés como idioma puente. Hemos utilizado el diccionario euskera-inglés como diccionario de Elhuyar, y hemos tomado cinco diccionarios libres en la red para el inglés y otros idiomas. Los diccionarios construidos no son muy grandes: son diccionarios básicos de entre 8.000 y 21.000 entradas. De hecho, estos diccionarios obtenidos en la red eran similares. Todos los diccionarios son en ambas direcciones.

Todos estos diccionarios han sido puestos a disposición del público en el Portal de Diccionarios Automáticos (http://hiztegiautomatikoak.elhuyar.org). Y cuando decimos que los hemos puesto a disposición del público, queremos decir que no son sólo para consulta. Por un lado, todos los diccionarios se pueden descargar íntegramente desde el propio portal (dado que los diccionarios utilizados en el origen eran libres, nosotros también liberamos los que se derivan de ellos). Por otro lado, y como se ha mencionado anteriormente, los diccionarios no son del todo perfectos y presentan errores, la web permite a los usuarios participar en la corrección y mejora de los mismos a través de un sistema de marcado de los correctos y los errores.

En la web hay un campo de búsqueda de palabras en los diccionarios. Por otro lado, en el campo de resultados podemos indicar si las contraprestaciones nos parecen correctas o incorrectas, ya que por cada resultado, además de la palabra, se muestran los usos reales de los corpus, tanto para que sirvan de ejemplo como para ayudar al usuario a decidir si el resultado está bien o mal. También permite diferenciar entre pagos seguros y dudosos. También existe un apartado de descargas para poder descargar diccionarios completos en formato XML. Por último, la web cuenta con un foro en el que los usuarios podrán debatir sobre la corrección de palabras concretas, realizar consultas, etc. La web tiene interfaz en 8 idiomas y ofrece un teclado virtual para realizar búsquedas en lenguas que no utilizan el alfabeto latino.

No queremos dejar el trabajo realizado. Tenemos intención de crear más diccionarios y de incluirlos en el portal. También para dar la oportunidad de que la colaboración sea más allá de la votación: por ejemplo, con la posibilidad de añadir o modificar peajes y ejemplos.

Con el Portal de Diccionarios Automáticos, por primera vez hemos relacionado el euskera con otras 5 lenguas. Podrían parecer lenguas lejanas, y tal vez lo hubiera sido antes, pero cada vez tienen más relación con la globalización e internet. Creemos que son un recurso importante y más en el futuro si nos ayudamos a mejorar entre todos.

X. Saralegi, I. Manterola, I. San Vicente. 2011. “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries”. Conference on Empirical Methods in Natural Language Processing (EMNLP 2011). X. Edimburgo Saralegi, I. Manterola, I. San Vicente. 2012. "Building a Basque-Chinese Dictionary by using English as a Pivot". 8th international conference on Language Resources and Evaluation, LREC'12. Estambul.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila