Portal de diccionaris autoconstruidos

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En el departament d'I+D de les Tecnologies Lingüístiques d'Elhuyar hem estat investigant amb una nova tecnologia en els últims anys, utilitzant un llenguatge de pont per a crear automàticament diccionaris per a nous parells de llengües. I per a posar a la disposició del públic els resultats d'aquesta recerca, hem posat a la disposició del públic el Portal de Diccionaris Automàtics online amb 5 nous diccionaris bilingües.
automatikoki-eraikitako-hiztegien-ataria 400

Si hi ha un recurs lingüístic bàsic, això són diccionaris. I entre els diccionaris, els bilingües són molt necessaris en molts casos: en l'aprenentatge d'idiomes, en la traducció... En la secció de Tecnologies Lingüístiques d'Elhuyar també comptem amb diccionaris bilingües per a traduccions automàtiques, cerca multilingüe...

No obstant això, l'elaboració de diccionaris és costosa. Per això, els diccionaris bilingües en basc no són tan abundants com volguéssim, i el mateix ocorre amb altres llengües minoritàries. Normalment existeixen diccionaris per a llengües en contacte (altres llengües locals o pròximes) o per a les principals llengües internacionals. Però no es fan per a altres llengües minoritàries o per a les llengües majoritàries llunyanes, la qual cosa posa en desavantatge a llengües minoritàries com el basc. Per exemple, en les possibilitats d'aprenentatge de la llengua per part de la població immigrant: no és fàcil aprendre basc directament a partir de la llengua pròpia, sempre amb el castellà, anglès o francès com a pont, per la qual cosa abans cal aprendre un d'ells...

Ponts per a crear diccionaris

El llenguatge pont és un desavantatge a l'hora d'aprendre un idioma, però aquesta idea pot aprofitar-se per a crear nous diccionaris de manera senzilla i econòmica. De fet, gairebé totes les llengües tenen algun vocabulari bilingüe amb una llengua “gran” (normalment anglès). I podem utilitzar dos diccionaris d'aquest tipus, prenent aquesta llengua “gran” com a pont, per a construir un diccionari entre dos nous parells de llengües. Es tracta de la tècnica del pivotaje, que consisteix en la utilització del llenguatge com a pivot. Explicant-ho de manera senzilla, si col·loca el basc-anglès en un diccionari etxe => house i l'anglès-alemany en un diccionari house => haus, concloem llavors que etxe => haus. I així podem construir un diccionari basc-alemany.

En el departament d'I+D de les Tecnologies Lingüístiques d'Elhuyar hem estat investigant amb aquesta tècnica en els últims anys amb l'objectiu de crear nous diccionaris entre el basc i altres llengües. A la vista de l'exemple anterior, sembla que la tècnica és molt senzilla, però aquest exemple és molt simple, perquè en la realitat una paraula pot tenir múltiples significats i cadascun d'ells pot tenir diverses contraprestacions. Això suposa que un simple encadenat dels diccionaris generi moltes equivalències errònies, com s'observa en l'exemple de la figura.

Ed. Elhuyar

Per tant, la dificultat d'aquesta tècnica radica en el fet que per a crear un diccionari de qualitat és necessari detectar i eliminar automàticament aquestes equívoques errònies. Per a això s'utilitzen dos mètodes. El primer narra el nombre de camins que hi ha entre dues paraules; quants més camins, més probabilitat que l'equivalència sigui correcta. El segon mesura la semblança dels contextos en els quals es troben les paraules en els corpus de totes dues llengües; com més s'assemblen els contextos, més possibilitats que siguin equivalents. I, per descomptat, per a mesurar la semblança dels contextos es necessita un diccionari, ja que es troben en diferents llengües, per al que s'utilitzen les certeses obtingudes amb el primer mètode.

L'aplicació d'aquestes tècniques de neteja, igual que qualsevol mètode automàtic en tecnologies lingüístiques, mai aconsegueix resultats perfectes, és a dir, sempre hi haurà una taxa d'error. Aquesta taxa d'error que s'aconsegueix és molt variable, ja que depèn de diversos factors (idiomes, diccionaris utilitzats, corpus utilitzats, etc.), però alguns mesuraments indiquen que el percentatge de resultats correctes pot variar entre un 60-80%. Evidentment, no són diccionaris perfectes, però és millor que no tenir res.

Portal de diccionaris automàtics

Utilitzant els mètodes esmentats, hem creat cinc diccionaris bilingües en basc, seleccionats 5 de les principals llengües dels tres continents (Àfrica, Àsia i Europa): basc-àrab, euskara-swahilia, euskara-txinera, euskara-hindia i euskara-alemany. En tots ells s'ha utilitzat l'anglès com a idioma pont. Hem utilitzat el diccionari basc-anglès com a diccionari d'Elhuyar, i hem pres cinc diccionaris lliures en la xarxa per a l'anglès i altres idiomes. Els diccionaris construïts no són molt grans: són diccionaris bàsics d'entre 8.000 i 21.000 entrades. De fet, aquests diccionaris obtinguts en la xarxa eren similars. Tots els diccionaris són en totes dues direccions.

Tots aquests diccionaris han estat posats a la disposició del públic en el Portal de Diccionaris Automàtics (http://hiztegiautomatikoak.elhuyar.org). I quan diem que els hem posat a la disposició del públic, volem dir que no són només per a consulta. D'una banda, tots els diccionaris es poden descarregar íntegrament des del propi portal (atès que els diccionaris utilitzats en l'origen eren lliures, nosaltres també alliberem els que es deriven d'ells). D'altra banda, i com s'ha esmentat anteriorment, els diccionaris no són del tot perfectes i presenten errors, la web permet als usuaris participar en la correcció i millora dels mateixos a través d'un sistema de marcat dels correctes i els errors.

En la web hi ha un camp de cerca de paraules en els diccionaris. D'altra banda, en el camp de resultats podem indicar si les contraprestacions ens semblen correctes o incorrectes, ja que per cada resultat, a més de la paraula, es mostren els usos reals dels corpus, tant perquè serveixin d'exemple com per a ajudar l'usuari a decidir si el resultat està bé o malament. També permet diferenciar entre pagaments segurs i dubtosos. També existeix un apartat de descàrregues per a poder descarregar diccionaris complets en format XML. Finalment, la web compta amb un fòrum en el qual els usuaris podran debatre sobre la correcció de paraules concretes, realitzar consultes, etc. La web té interfície en 8 idiomes i ofereix un teclat virtual per a realitzar cerques en llengües que no utilitzen l'alfabet llatí.

No volem deixar el treball realitzat. Tenim intenció de crear més diccionaris i d'incloure'ls en el portal. També per a donar l'oportunitat que la col·laboració sigui més enllà de la votació: per exemple, amb la possibilitat d'afegir o modificar peatges i exemples.

Amb el Portal de Diccionaris Automàtics, per primera vegada hem relacionat el basc amb altres 5 llengües. Podrien semblar llengües llunyanes, i tal vegada ho hauria estat abans, però cada vegada tenen més relació amb la globalització i internet. Creiem que són un recurs important i més en el futur si ens ajudem a millorar entre tots.

X. Saralegi, I. Manterola, I. Sant Vicent. 2011. “Analizing Methods for Improving Precision of Pivot Based Bilingual Dictionaries”. Conference on Empirical Methods in Natural Language Processing (EMNLP 2011). X. Edimburg Saralegi, I. Manterola, I. Sant Vicent. 2012. "Building a Basque-Chinese Dictionary by using English as a Pivot". 8th international conference on Language Resources and Evaluation, LREC'12. Istanbul.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila