Portal de dicionarios autoconstruidos

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

No departamento de I+D das Tecnoloxías Lingüísticas de Elhuyar estivemos investigando cunha nova tecnoloxía nos últimos anos, utilizando unha linguaxe de ponte paira crear automaticamente dicionarios paira novos pares de linguas. E paira pór a disposición do público os resultados desta investigación, puxemos a disposición do público o Portal de Dicionarios Automáticos online con 5 novos dicionarios bilingües.
automatikoki-eraikitako-hiztegien-ataria 400

Si hai un recurso lingüístico básico, iso son dicionarios. E entre os dicionarios, os bilingües son moi necesarios en moitos casos: na aprendizaxe de idiomas, na tradución... Na sección de Tecnoloxías Lingüísticas de Elhuyar tamén contamos con dicionarios bilingües paira traducións automáticas, procura multilingüe...

Con todo, a elaboración de dicionarios é custosa. Por iso, os dicionarios bilingües en eúscaro non son tan abundantes como quixésemos, e o mesmo ocorre con outras linguas minoritarias. Normalmente existen dicionarios paira linguas en contacto (outras linguas locais ou próximas) ou paira as principais linguas internacionais. Pero non se fan paira outras linguas minoritarias ou paira as linguas maioritarias afastadas, o que pon en desvantaxe a linguas minoritarias como o eúscaro. Por exemplo, nas posibilidades de aprendizaxe da lingua por parte da poboación inmigrante: non é fácil aprender eúscaro directamente a partir da lingua propia, sempre co castelán, inglés ou francés como ponte, polo que antes hai que aprender un deles...

Pontes paira crear dicionarios

A linguaxe ponte é una desvantaxe á hora de aprender un idioma, pero esta idea pode aproveitarse paira crear novos dicionarios de forma sinxela e económica. De feito, case todas as linguas teñen algún vocabulario bilingüe cunha lingua “grande” (normalmente inglés). E podemos utilizar dous dicionarios deste tipo, tomando esta lingua “grande” como ponte, paira construír un dicionario entre dous novos pares de linguas. Trátase da técnica do pivotaje, que consiste na utilización da linguaxe como pivote. Explicándoo de forma sinxela, se coloca o eúscaro-inglés nun dicionario etxe => house e o inglés-alemán nun dicionario house => haus, concluímos entón que etxe => haus. E así podemos construír un dicionario eúscaro-alemán.

No departamento de I+D das Tecnoloxías Lingüísticas de Elhuyar estivemos investigando con esta técnica nos últimos anos co obxectivo de crear novos dicionarios entre o eúscaro e outras linguas. Á vista do exemplo anterior, parece que a técnica é moi sinxela, pero este exemplo é moi simple, porque na realidade una palabra pode ter múltiples significados e cada un deles pode ter varias contraprestacións. Isto supón que un simple encadeado dos dicionarios xere moitas equivalencias erróneas, como se observa no exemplo da figura.

Ed. Elhuyar

Por tanto, a dificultade desta técnica radica en que paira crear un dicionario de calidade é necesario detectar e eliminar automaticamente esas equívocas erróneas. Paira iso utilízanse dous métodos. O primeiro narra o número de camiños que hai entre dúas palabras; cantos máis camiños, máis probabilidade de que a equivalencia sexa correcta. O segundo mide a semellanza dos contextos nos que se atopan as palabras nos corpus de ambas as linguas; canto máis se parecen os contextos, máis posibilidades de que sexan equivalentes. E, por suposto, paira medir a semellanza dos contextos necesítase un dicionario, posto que se atopan en diferentes linguas, paira o que se utilizan as certezas obtidas co primeiro método.

A aplicación destas técnicas de limpeza, do mesmo xeito que calquera método automático en tecnoloxías lingüísticas, nunca consegue resultados perfectos, é dicir, sempre haberá una taxa de erro. Esta taxa de erro que se consegue é moi variable, xa que depende de varios factores (idiomas, dicionarios utilizados, corpus utilizados, etc.), pero algunhas medicións indican que a porcentaxe de resultados correctos pode variar entre un 60-80%. Evidentemente, non son dicionarios perfectos, pero é mellor que non ter nada.

Portal de dicionarios automáticos

Utilizando os métodos mencionados, creamos cinco dicionarios bilingües en eúscaro, seleccionados 5 das principais linguas do tres continentes (África, Asia e Europa): eúscaro-árabe, euskara-swahilia, euskara-txinera, euskara-hindia e euskara-alemán. En todos eles utilizouse o inglés como idioma ponte. Utilizamos o dicionario eúscaro-inglés como dicionario de Elhuyar, e tomamos cinco dicionarios libres na rede paira o inglés e outros idiomas. Os dicionarios construídos non son moi grandes: son dicionarios básicos de entre 8.000 e 21.000 entradas. De feito, estes dicionarios obtidos na rede eran similares. Todos os dicionarios son en ambas as direccións.

Todos estes dicionarios foron postos a disposición do público no Portal de Dicionarios Automáticos (http://hiztegiautomatikoak.elhuyar.org). E cando dicimos que os puxemos a disposición do público, queremos dicir que non son só paira consulta. Por unha banda, todos os dicionarios pódense descargar integramente desde o propio portal (dado que os dicionarios utilizados na orixe eran libres, nós tamén liberamos os que se derivan deles). Doutra banda, e como se mencionou anteriormente, os dicionarios non son do todo perfectos e presentan erros, a web permite aos usuarios participar na corrección e mellora dos mesmos a través dun sistema de marcado dos correctos e os erros.

Na web hai un campo de procura de palabras nos dicionarios. Doutra banda, no campo de resultados podemos indicar se as contraprestacións parécennos correctas ou incorrectas, xa que por cada resultado, ademais da palabra, móstranse os usos reais dos corpus, tanto para que sirvan de exemplo como paira axudar ao usuario a decidir se o resultado está ben ou mal. Tamén permite diferenciar entre pagos seguros e dubidosos. Tamén existe un apartado de descargas paira poder descargar dicionarios completos en formato XML. Por último, a web conta cun foro no que os usuarios poderán debater sobre a corrección de palabras concretas, realizar consultas, etc. A web ten interfaz en 8 idiomas e ofrece un teclado virtual paira realizar procuras en linguas que non utilizan o alfabeto latino.

Non queremos deixar o traballo realizado. Temos intención de crear máis dicionarios e de incluílos no portal. Tamén paira dar a oportunidade de que a colaboración sexa máis aló da votación: por exemplo, coa posibilidade de engadir ou modificar peaxes e exemplos.

Co Portal de Dicionarios Automáticos, por primeira vez relacionamos o eúscaro con outras 5 linguas. Poderían parecer linguas afastadas, e talvez foino antes, pero cada vez teñen máis relación coa globalización e internet. Creemos que son un recurso importante e máis no futuro si axudámonos a mellorar entre todos.

X. Saralegi, I. Manterola, I. San Vicente. 2011. “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries”. Conference on Empirical Methods in Natural Language Processing (EMNLP 2011). X. Edimburgo Saralegi, I. Manterola, I. San Vicente. 2012. "Building a Basque-Chinese Dictionary by using English as a Pivot". 8th international conference on Language Resources and Evaluation, LREC'12. Istambul.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila