Tecnologies lingüístiques d'Elhuyar: Cerques multilingües

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Un dels camps que treballem en el departament d'I+D de les tecnologies lingüístiques de la Fundació Elhuyar és ANAR ( Information Retrieval o Cerca d'Informació), una àrea d'informàtica que s'encarrega de facilitar la gestió i cerca de continguts digitals. En els últims anys hem estat desenvolupant dues tecnologies sobre aquest tema molt útils al nostre judici: Cercador multilingüe i Dousare relacionador de documents multilingüe. Recentment hem implementat totes dues en el portal Zientzia.net i les presentem públicament al juliol.
elhuyarren-hizkuntza-teknologiak-bilaketa-eleanizt
Gràcies a la tecnologia dokusare, en la columna de la dreta es recomanen altres continguts relacionats amb l'article que l'usuari està llegint.

Fa dos anys, en aquest mateix apartat d'aquesta revista, us presentem l'evolució dels cercadors d'Internet i les seves noves capacitats futures. Esmentàvem llavors que en el departament d'I+D de les tecnologies lingüístiques d'Elhuyar s'estava investigant sobre tècniques per a navegar i buscar millor en continguts multilingües. Aquestes tecnologies ja són realitat i aquí explicarem amb més detall què són i per a què són útils.

Elezkari, cercador multilingüe

Les persones que tenim el costum de parlar en basc en la xarxa tenen dos problemes principals quan volem buscar contingut. Un, quan volem buscar el contingut en basc: si el que busquem és un nom especial, tècnic, o curt, hi ha moltes opcions per a dir el mateix en altres llengües, i ens apareixeran resultats en altres llengües en lloc d'en basc. L'altre, quan busquem contingut sobre alguna cosa, si és possible en basc però no és possible en un altre: la primera cerca es farà en basca; si no trobem resultats adequats (lamentablement el que pot succeir sovint, perquè el contingut en basc no és tan abundant com ens agradaria), buscarem en un altre idioma que s'adapti bé, com el castellà o el francès, traduint els termes de cerca (cosa que sovint no és fàcil); i si no ens quedem a gust tornant a anglès.

Per a evitar-ho hem desenvolupat la tecnologia denominada Elezkari. En ella, nosaltres realitzarem una única cerca en basca, que s'encarregarà de traduir les paraules a altres idiomes i de buscar en els llocs on es vagi a buscar, per a després traduir els resultats més significatius en l'idioma en el qual es trobin.

El punt fort de l'eina és la traducció de termes de cerca. Combina diccionaris i tecnologies lingüístiques per a donar una traducció adequada, i això no és un tema fútil: es resolen les ambigüitats per a trobar una remuneració adequada, es recorre als sinònims per a obtenir més resultats però rebutjant els resultats no desitjats... L'eina és molt útil en molts casos: pàgines web amb contingut en diversos idiomes, portals especialitzats que volen permetre la cerca en diverses webs, intranets d'empreses, etc. I encara que en l'exemple d'ús esmentat anteriorment l'idioma inicial era el basc, pot ser qualsevol altre. A més, una possible difusió de l'eina pot ser la traducció a la llengua de partida dels resultats en altres llengües a través de la traducció automàtica, tecnologia que també treballem. Elezkari està a l'altura d'eines similars existents, però és l'única que té en compte el basc.

Dokusare, relacionador documental multilingüe

En les versions online dels mitjans de comunicació, blogs i webs amb un gran contingut és molt habitual que, estant en una determinada notícia o article, es presentin al final enllaços a continguts similars que permetin aprofundir en el tema. Aquests enllaços es col·loquen per mètodes automàtics, però normalment són de contingut propi i estan en el mateix idioma, per la qual cosa són molt simples, basats en la mera coincidència de paraules.

La tecnologia dokusare fa el mateix, però és capaç de relacionar el contingut que hi ha en diversos idiomes i buscar el més semblant. Poden fer-ho els mitjans de comunicació i les pàgines web que tinguin contingut en més d'una llengua, o aquells que vulguin mostrar contingut relacionat en pàgines externes.

Totes dues en Zientzia.net

Dokusare i Elezkari van néixer com a projectes de recerca i durant anys hem estat investigant en ells i presentant avanços en congressos internacionals, però són tecnologies que funcionen en l'actualitat. S'han posat en marxa per primera vegada en la web Zientzia.net de la Fundació Elhuyar. Zientzia.net té vocació de ser el portal de la ciència en basca, per la qual cosa no limita al contingut intern els enllaços a continguts com el seu cercador. També contempla el contingut de diverses webs internacionals de referència sobre ciència en tots dos casos: Nature, Science , Physics World, Futurity... Així, a més dels continguts propis de Zientzia.net, podem accedir i buscar el contingut d'aquestes webs, sempre partint del basc.

Dokusare i Elezkari són excel·lents exemples del que les tecnologies lingüístiques poden aportar. Aquestes tecnologies suposen un gran avanç per als usuaris i el basc. Per tant, esperem que en el futur aquestes tecnologies es vegin en més llocs i que aquest tipus de tecnologies es facin quotidianes.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila