Ingeniería lingüística Hizking21 XXI. en la puerta del siglo

Saiz Elizondo, Rafa

Itsas Enara Ornitologia Elkartearen lehendakaria

Más allá del proceso de textos, la ingeniería lingüística aborda lo que las computadoras pueden hacer en el ámbito lingüístico. El objetivo general es que el medio de comunicación con las máquinas sea cada vez más natural, entre otras cosas, porque el usuario hablará o escribirá como acostumbra y las máquinas lo comprenderán y, si se programa así, obedecerán. En lugar de reproducir mensajes ya grabados, las máquinas crearán mensajes comunicativos, tanto escritos como verbales. Para ello es necesario un largo camino y un gran trabajo básico. Detalles del proyecto Corpus
(Foto: G. Andonegi).

El proyecto que se ha iniciado con el nombre de Hizking21 tiene como objetivo: Para el año 2005 disponer de las herramientas infolingüísticas disponibles actualmente para el inglés en euskera. Muchas de ellas serán creadas específicamente para el euskera, otras habrán sido adaptadas a otras lenguas. La morfología y especial sintaxis del euskera van a hacer que se encuentren problemas que no hayan sido tratados anteriormente y que la tecnología que se desarrolle para superarlos pueda convertir a Euskal Herria en un referente mundial en este campo.

Qué hay hoy

En la actualidad, la referencia a las tecnologías informáticas lingüísticas en euskera es imprescindible para los grupos IXA y Aholkularitza de la Universidad del País Vasco. Han desarrollado diversas herramientas informáticas para el tratamiento de la lengua: corrector ortográfico, lematizador, desambiguador, etc. que serán en gran medida el punto de partida del proyecto. Sin embargo, para que estos trabajen necesitan referencias, lexicones, y para completarlos y actualizarlos, los corpus se han convertido en una herramienta imprescindible, un repositorio de textos clasificados, etiquetados y ordenados reflejo del lenguaje real.

Cuanto más se desarrolle el procesamiento del lenguaje natural, más fácil será utilizar las herramientas informáticas de trabajo. (Foto: G. Andonegi).

Los trabajos realizados por Elhuyar a lo largo de los años en la elaboración de diccionarios lingüísticos, así como en los diccionarios técnicos, servirán para completar y alimentar dichos léxicos. El material elaborado y recopilado en el campo de la Ciencia y la Técnica será también valioso en la creación de corpus muy especiales.

Su actividad principal es el análisis y tratamiento de la voz. Dispone de herramientas para pasar de un fichero de formato de voz a texto escrito y viceversa. Para ello también es imprescindible tener referencias: enseñar a la máquina cómo conocer lo que ‘oye’ y cómo ‘escribe’.

Las herramientas y recursos que se ofrecen son muy relacionados con el euskera. Por tanto, la mayoría son programas realizados con tecnología propia desarrollada. En cuanto a las interfaces, aunque una parte del trabajo ya avanzado en otras lenguas es útil, el diseño de los avatares está muy avanzado, hay que hacerles hablar en euskera. En ese camino también han recorrido su camino y seguirán adelante.

La Fundación Robotiker, referente en conectividad de equipos en el País Vasco, se encargará de la tecnología básica en Hizking21. En Euskal Herria, sin embargo, existen otros agentes que trabajan en este campo como el ASP, la Tecnología Diana...

Qué hay que hacer

Se pretende realizar la comunicación con las máquinas de la forma más natural posible. (Foto: G. Andonegi).

Hoy en día es innegable la necesidad de un corpus general de referencia del euskera, más aún si nos adhieren al ámbito de la ingeniería lingüística. Sin embargo, uno de los objetivos de Hizking21 es ofrecer una metodología consensuada y contrastada que pueda ser la base para la consecución de este objetivo global de futuro y desarrollar herramientas de corpus para ello, junto con la oferta de recursos parciales (corpus especializados) que se constituyan en esta vía.

Herramientas intermedias Herramientas
clave en el Proyecto: Lematizador, desambiguador, analizador sintáctico, etc., que deberán ser complementadas, adaptadas y mejoradas de forma continua. Adicionalmente, herramientas para la correcta explotación de los recursos lingüísticos generados (analizadores de textos, extractores de términos, etc.) también se crearán.

La lengua no debería ser un obstáculo para poder acceder a los avances.

Interfaces La
comunicación con las máquinas será en cierta medida visual y verbal. A medida que avanza la tecnología, los resultados serán mejores, sobre todo en la representatividad de las imágenes 3D. Hoy en día se obtienen buenos resultados con la información grabada, pero hay que tener en cuenta que la inmediatez es imprescindible para que el habla sea natural: el sistema ‘entiende’ los mensajes, tiene que crear y emitir una respuesta, pero la respuesta no será sólo una frase, sino que deberá transmitirse con gestos, entonaciones y expresiones especiales. Todo ello exige grandes necesidades computacionales, tanto en el tratamiento lingüístico como en la síntesis de sonido e imagen.

¿Y después, qué?

Como se ha mencionado anteriormente, el resultado del proyecto Hizking21 no será la creación de aplicaciones informáticas concretas, sino poner a disposición de los aplicadores las herramientas y tecnologías que las permitan. Destino de las empresas de software para la realización de aplicaciones en euskera con capacidad lingüística. ¿Qué aplicaciones? No faltan ideas: sistemas que reciben órdenes telefónicamente (como los de domótica), sistemas de información que deben responder a las preguntas de los usuarios, ayudas para la traducción automática, dictadura automática, lectores para invidentes, sistemas de ayuda para conducir visitas en lugares públicos, sistemas de gestión de avisos en aeropuertos y estaciones, etc. Las opciones son infinitas. Sólo hay que ejecutarlos.

El proyecto Hizking21 tiene un presupuesto de 7.600.000 €. El Departamento de Industria, Comercio y Turismo del Gobierno Vasco nombró a la Infoingeniería Lingüística como una línea de investigación de interés estratégico, apoyada por el programa Etortek.

Hizking21 reúne a cinco socios: La Fundación Elhuyar, los grupos IXA y Aholkularitza de la Universidad del País Vasco, la asociación Vicomtech y la Fundación Robotiker. Colabora Eleka S.L. la empresa también participa en este proyecto, creado entre IXA y Ehuy. Por su parte, poseen el conocimiento y la capacidad necesarias para diseñar sistemas con capacidad lingüística. El trabajo de todos los consorciados permitirá disponer en breve de herramientas informáticas que puedan ser incorporadas a las aplicaciones diarias.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila