Tecnologías lingüísticas de Elhuyar: Búsquedas multilingües

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Uno de los campos que trabajamos en el departamento de I+D de las tecnologías lingüísticas de la Fundación Elhuyar es IR ( Information Retrieval o Búsqueda de Información), un área de informática que se encarga de facilitar la gestión y búsqueda de contenidos digitales. En los últimos años hemos estado desarrollando dos tecnologías al respecto muy útiles a nuestro juicio: Buscador multilingüe y Dousare relacionador de documentos multilingüe. Recientemente hemos implementado ambas en el portal Zientzia.net y las presentamos públicamente en julio.
elhuyarren-hizkuntza-teknologiak-bilaketa-eleanizt
Gracias a la tecnología dokusare, en la columna de la derecha se recomiendan otros contenidos relacionados con el artículo que el usuario está leyendo.

Hace dos años, en este mismo apartado de esta revista, os presentamos la evolución de los buscadores de Internet y sus nuevas capacidades futuras. Mencionábamos entonces que en el departamento de I+D de las tecnologías lingüísticas de Elhuyar se estaba investigando sobre técnicas para navegar y buscar mejor en contenidos multilingües. Estas tecnologías ya son realidad y aquí explicaremos con más detalle qué son y para qué son útiles.

Elezkari, buscador multilingüe

Las personas que tenemos la costumbre de hablar en euskera en la red tienen dos problemas principales cuando queremos buscar contenido. Uno, cuando queremos buscar el contenido en euskera: si lo que buscamos es un nombre especial, técnico, o corto, hay muchas opciones para decir lo mismo en otras lenguas, y nos aparecerán resultados en otras lenguas en lugar de en euskera. El otro, cuando buscamos contenido sobre algo, si es posible en euskera pero no es posible en otro: la primera búsqueda se hará en euskera; si no encontramos resultados adecuados (lamentablemente lo que puede suceder a menudo, porque el contenido en euskera no es tan abundante como nos gustaría), buscaremos en otro idioma que se adapte bien, como el castellano o el francés, traduciendo los términos de búsqueda (cosa que a menudo no es fácil); y si no nos quedamos a gusto volviendo a inglés.

Para evitarlo hemos desarrollado la tecnología denominada Elezkari. En ella, nosotros realizaremos una única búsqueda en euskera, que se encargará de traducir las palabras a otros idiomas y de buscar en los lugares donde se vaya a buscar, para luego traducir los resultados más significativos en el idioma en el que se encuentren.

El punto fuerte de la herramienta es la traducción de términos de búsqueda. Combina diccionarios y tecnologías lingüísticas para dar una traducción adecuada, y esto no es un tema baladí: se resuelven las ambigüedades para encontrar una remuneración adecuada, se recurre a los sinónimos para obtener más resultados pero rechazando los resultados no deseados... La herramienta es muy útil en muchos casos: páginas web con contenido en varios idiomas, portales especializados que quieren permitir la búsqueda en varias webs, intranets de empresas, etc. Y aunque en el ejemplo de uso mencionado anteriormente el idioma inicial era el euskera, puede ser cualquier otro. Además, una posible difusión de la herramienta puede ser la traducción a la lengua de partida de los resultados en otras lenguas a través de la traducción automática, tecnología que también trabajamos. Elezkari está a la altura de herramientas similares existentes, pero es la única que tiene en cuenta el euskera.

Dokusare, relacionador documental multilingüe

En las versiones online de los medios de comunicación, blogs y webs con un gran contenido es muy habitual que, estando en una determinada noticia o artículo, se presenten al final enlaces a contenidos similares que permitan profundizar en el tema. Estos enlaces se colocan por métodos automáticos, pero normalmente son de contenido propio y están en el mismo idioma, por lo que son muy simples, basados en la mera coincidencia de palabras.

La tecnología dokusare hace lo mismo, pero es capaz de relacionar el contenido que hay en varios idiomas y buscar lo más parecido. Pueden hacerlo los medios de comunicación y las páginas web que tengan contenido en más de una lengua, o aquellos que quieran mostrar contenido relacionado en páginas externas.

Ambas en Zientzia.net

Dokusare y Elezkari nacieron como proyectos de investigación y durante años hemos estado investigando en ellos y presentando avances en congresos internacionales, pero son tecnologías que funcionan en la actualidad. Se han puesto en marcha por primera vez en la web Zientzia.net de la Fundación Elhuyar. Zientzia.net tiene vocación de ser el portal de la ciencia en euskera, por lo que no limita al contenido interno los enlaces a contenidos como su buscador. También contempla el contenido de varias webs internacionales de referencia sobre ciencia en ambos casos: Nature, Science , Physics World, Futurity... Así, además de los contenidos propios de Zientzia.net, podemos acceder y buscar el contenido de estas webs, siempre partiendo del euskera.

Dokusare y Elezkari son excelentes ejemplos de lo que las tecnologías lingüísticas pueden aportar. Estas tecnologías suponen un gran avance para los usuarios y el euskera. Por lo tanto, esperamos que en el futuro estas tecnologías se vean en más sitios y que este tipo de tecnologías se hagan cotidianas.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila