Recursos léxico-semánticos para la industria lingüística

Se está creando una nueva industria en torno a la lengua, cuyo objetivo es tratar la lengua con la computadora. Para que este campo avance, son necesarios recursos lexicales que aporten significado a las palabras. En los criterios del programa Language Engineering de la Unión Europea se destaca el papel fundamental de los recursos lexicales.

El proyecto Hiztegia 2002, que cuenta también con el apoyo de la Unión Europea (FEDER, 2FD97-2000-2001), está relacionado con los siguientes proyectos que han tenido como objetivo la creación de recursos lexicales: Wordnet, EuroWortdnet y ITEM. Con este proyecto, el grupo IXA pretende:

  • Versión estructurada del Diccionario Vasco siguiendo las directrices de TEI (Text Encoding Initiative). Se utilizará el lenguaje estándar SGML (Standard Generalized Markup Language).
  • Base de conocimiento lexical del Diccionario Vasco: compuesta de relaciones semánticas extraídas del mismo.
  • Euskal Wordnet: Adaptación de EuroWordnet relacionando los conceptos de inglés con los de euskera.

La creación de estos recursos tiene como objetivo desarrollar, entre otros, los siguientes productos comerciales:

  • Versión electrónica estructurada del Diccionario Vasco (integrada en CD-ROM, Internet y/o procesadores de texto)
  • Un tesauro para el euskera integrado en procesadores de textos: para poder consultar las relaciones entre sinonimia, hiperonimia, hiponimia y otros conceptos.

Históricamente, los recursos lexicales se hacían a mano, pero teniendo en cuenta que la cantidad de información que se tenía que trabajar requería de un gran esfuerzo, en la última década se ha iniciado el camino de las ayudas automáticas o semiautomáticas. A partir de la información contenida en los diccionarios y corpus se han elaborado bases de conocimiento lexicales (LAE). La LAE dispone de recursos lexicales estructurados con información sobre palabras y acepciones. Por ejemplo, en el EBL Wordnet, que se distribuye gratuitamente, cada acepción en inglés se expresa con un conjunto de palabras sinónimas (el synset) y todas las acepciones están jerarquizadas. EuroWordnet es otro LBL del mismo diseño que se ha extendido a ocho lenguas europeas (alemán, español, estonio, francés, inglés, italiano, holandés y checo). Dado que la mayoría de los EBL se han creado para el inglés, el resto de lenguas se encuentran en una situación de vulnerabilidad frente a las nuevas tecnologías. Para hacer frente a esta situación vemos dos soluciones complementarias:

1. Creación de EBL a partir de corpus y diccionarios disponibles para cada lengua. En nuestro caso, como fuente lexical. Hemos utilizado el Diccionario Vasco. El primer trabajo ha consistido en estructurar el Diccionario Vasco siguiendo los estándares SGML-TEI. Así, el euskera será útil para cualquier persona que esté estudiando o tenga una herramienta de trabajo. Analizando las definiciones de esta versión estructurada, obtendremos una serie de relaciones léxico-semánticas: sinonimia, hiperonimia (relación clase-sub-clase; por ejemplo: animal insecto), meronimia (relación osoa-parte; por ejemplo: txori-moko), etc.

2. Utilizar los BLRs elaborados en inglés para crear BLRU para otras lenguas. En nuestro caso, partiendo de EuroWordnet queremos hacer Wordnet para el euskera, relacionando los conceptos de inglés con los de euskera. Para hacer este Wordnet al euskera utilizaremos métodos semiautomáticos, pero luego peinaremos los resultados manualmente.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila