BerbaTek: tecnologías lingüísticas en euskera en marcha

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En los últimos tres años, diversas instituciones del País Vasco hemos estado investigando y desarrollando tecnologías lingüísticas para el euskera en el proyecto BerbaTek. Y siendo uno de los objetivos del proyecto el de orientar la investigación hacia el uso práctico, hemos creado tres demos: un buscador semántico multimedia de ciencia y tecnología, una demo para el doblaje automático de documentales y un tutor personal para la enseñanza de idiomas.
berbatek-euskarazko-hizkuntza-teknologiak-martxan
Demo para la enseñanza de las lenguas creadas en el proyecto BerbaTek. Ed. Danel Solabarrieta

Si en los últimos tres años has hecho el seguimiento de este apartado "Mundo digital", estarás convencido de que las tecnologías lingüísticas serán cada vez más importantes en el mundo de los dispositivos móviles y siempre conectados. Os hemos hablado de tecnologías como la web semántica y las tecnologías semánticas, la traducción automática y los corpus, los sistemas de respuesta a preguntas, los agentes de diálogo, los buscadores inteligentes... que tienen una presencia significativa y creciente en este nuevo mundo. Estas tecnologías aún tienen camino por recorrer, pero en algunos casos están tan avanzadas como para que sean útiles y muchos dispositivos y servicios están integrados, como os hemos contado aquí.

Sin embargo, en general, son sólo para las lenguas más extendidas (a menudo sólo en inglés); las grandes compañías no están interesadas en introducir el euskera en ellas. Y aunque lo tuvieran, no están dispuestos a asumir el coste de adaptar esas tecnologías al euskera. Esta adaptación al euskera no es una tarea meramente laboral; a veces es necesario realizar una investigación básica, desarrollar recursos básicos...

Así hemos estado trabajando la Fundación Elhuyar, los grupos de investigación IXA y Aholkularitza de la UPV, y el centro tecnológico Vicomtech-IK4 y Tecnalia, dentro del proyecto BerbaTek, entre 2009 y 2011, en la investigación de tecnologías lingüísticas, de voz y multimedia para el euskera (principalmente). Los departamentos de Industria y Cultura del Gobierno Vasco han financiado parte del presupuesto del proyecto BerbaTek a través del programa Etortek.

No es la primera vez que estas 5 organizaciones colaboramos en la investigación de tecnologías lingüísticas. Anteriormente estuvimos trabajando en el proyecto Hizking XXI en el periodo 2002-2004 y en el proyecto AnHitz en el periodo 2006-2008. Al final de este último, construimos una demo de experto virtual en ciencia, también llamado AnHitz, un avatar 3D con interacción oral capaz de responder a preguntas científicas y realizar búsquedas multilingües.

En el proyecto BerbaTek hemos realizado una gran investigación básica: hemos desarrollado o mejorado muchos recursos y herramientas básicas (corpus de texto o voz, léxicos, diccionarios, ontologías, gramáticas computacionales, analizadores morfosintácticos, reconocimiento de voz, síntesis de voz, sistemas de diálogo...), y hemos trabajado en diferentes tecnologías (traducción automática, búsqueda de información, extracción de información, sistemas de ayuda a la escritura, sistemas de respuesta, arning, sistemas de respuesta y respuesta.......... Las tecnologías desarrolladas en el mismo se han utilizado en diferentes proyectos y servicios.

Al servicio de la industria de las lenguas

Ed. -

Aunque el proyecto BerbaTek es un proyecto de investigación, el uso práctico de esta investigación ha sido desde el principio uno de los principales objetivos para nosotros. Y hemos querido dar esa practicidad en el ámbito de la industria de las lenguas.

Se entiende por industria lingüística la compuesta por tres subsectores: traducción (traducciones, localizaciones, interpretación, doblaje...), contenidos (editoriales, medios de comunicación...) y enseñanza (enseñanza de idiomas, enseñanza reglada...). En el País Vasco, recientemente se han iniciado los primeros pasos para estructurar el sector de la industria de las lenguas: En 2010 se creó la Asociación de Empresas del País Vasco de la Industria de las Lenguas Langune, con más de 30 socios. Desde su creación, los miembros de BerbaTek han participado activamente y BerbaTek tiene vocación de servir de soporte tecnológico a la industria y a la asociación.

Muchas de las tecnologías desarrolladas en BerbaTek tienen una aplicación directa en uno de los tres sectores de la industria de las lenguas, y otras herramientas, recursos y tecnologías son de aplicación en cualquiera de ellos o son las bases para el desarrollo de otras tecnologías.

El esquema representa gráficamente la industria de las lenguas y sus áreas, y qué puede aportar BerbaTek a cada una y en general.

Demos

Como ya se ha comentado, BerbaTek tiene vocación de ser una aplicación práctica en la industria de las lenguas, y prueba de ello es que para los tres subsectores de esta industria hemos construido una demo combinando diferentes tecnologías.

Demo para doblaje automático de documentales.

Como prueba de la contribución de las tecnologías lingüísticas en el campo de los contenidos, hemos realizado un buscador semántico multimedia de ciencia y tecnología. Este buscador se basa en la ontología especializada WNTerm en ciencia y tecnología, construida por Elhuyar y el Grupo IXA (una red semánticamente relacionada con conceptos de ciencia y tecnología, con subclases, sinónimos, etc.) y sobre el contenido de Elhuyar (imágenes y textos de la revista Elhuyar, vídeo del programa de televisión Teknopolis y audio de Norteko Ferrokarrilla). Mediante la tecnología desarrollada por Tecnalia, cuando se busca un término, la ontología permite también buscar contenidos que contengan sinónimos, subclases o superclases de este término. Además, cuando el resultado es una imagen, ofrece imágenes similares utilizando la tecnología de Vicomtech-IK4.

En el ámbito de la traducción se ha realizado una demo de doblaje automático de documentales. La duplicación automática de películas es un reto difícil de momento (muchas voces, lenguaje coloquial, velocidades diferentes...), pero con algunos tipos de documentales (un solo ponente, voz en off, coordinación con los labios no es necesaria o importante...) hemos hecho una demo que funciona bien. Mediante la emisión de un documental en castellano y una transcripción de lo que allí se dice (esta transcripción puede obtenerse automáticamente si se quiere, ya que existen en el mercado programas de dictado para el castellano), la tecnología de alineamiento temporal de Vicomtech-IK4 permite obtener un fichero de subtítulos (la transcripción, pero con los momentos inicial y final de cada frase). Posteriormente, el traductor automático Matxin del Grupo IXA traduce estos subtítulos al euskera, y la tecnología de conversión de voz de texto de Zapore Jai genera una voz sincronizada en euskera. Esta demo se ha aplicado con éxito a los apartados de un solo ponente del programa Teknopolis que realiza Elhuyar.

Por último, hemos realizado la demo de un tutor personal de la enseñanza de idiomas para el ámbito de la enseñanza. Este tutor es un personaje 3D capaz de expresar emociones, desarrollado por Vicomtech-IK4, que habla en euskera y entiende lo que se le dice en euskera, gracias a la tecnología de Zapore Jai. Y el tutor puede ayudarnos en: La tecnología de IXA nos permite realizar ejercicios gramaticales (verbos, declinación...) o ejercicios de comprensión (llenar los huecos de un texto dando varias opciones) creados automáticamente; nos evalúa la pronunciación gracias a la tecnología de Aholab; o ofrece ayudas para la escritura (comportamiento de los verbos, escritura de los números, consultas de diccionario...), A través de la tecnología de IXA y Elhuyar.

Divulgación

En el proyecto BerbaTek damos importancia, además de la investigación básica y la aplicación práctica, a la divulgación. Para nosotros es fundamental dar a conocer el trabajo realizado en foros de investigación, congresos y revistas especializadas, pero también mostrar a la sociedad en general la importancia de las tecnologías lingüísticas y de voz y dar a conocer los logros que hemos realizado en este campo para el euskera. Para lograr este último objetivo hemos elaborado una página web ( http://www.berbatek.com ) en la que además de informar de forma general sobre el proyecto BerbaTek, informamos periódicamente de los avances realizados en el mismo. Y además, a través del Observatorio de Tecnologías Lingüísticas, Vocales y Multimedia (Un Buscador de noticias de otras webs), damos a conocer lo que ocurre en el mundo de las tecnologías lingüísticas, así como los eventos más importantes a nivel local e internacional a través del Calendario de Eventos.

Estamos muy satisfechos y orgullosos de los resultados obtenidos por BerbaTek en el proyecto. Pero si el euskera no quiere quedarse atrás en las tecnologías lingüísticas y, por tanto, en ese nuevo mundo digital, todavía nos toca trabajar duro en los próximos años. Todos los miembros del proyecto BerbaTek estamos dispuestos a afrontar este reto.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila