Recursos léxico-semánticos paira a industria lingüística

Está a crearse una nova industria ao redor da lingua, cuxo obxectivo é tratar a lingua coa computadora. Para que este campo avance, son necesarios recursos lexicales que acheguen significado ás palabras. Nos criterios do programa Language Engineering da Unión Europea destácase o papel fundamental dos recursos lexicales.

O proxecto Hiztegia 2002, que conta tamén co apoio da Unión Europea (FEDER, 2FD97-2000-2001), está relacionado cos seguintes proxectos que tiveron como obxectivo a creación de recursos lexicales: Wordnet, EuroWortdnet e ITEM. Con este proxecto, o grupo IXA pretende:

  • Versión estruturada do Dicionario Vasco seguindo as directrices de TEI (Text Encoding Initiative). Utilizarase a linguaxe estándar SGML (Standard Generalized Markup Language).
  • Base de coñecemento lexical do Dicionario Vasco: composta de relacións semánticas extraídas do mesmo.
  • Euskal Wordnet: Adaptación de EuroWordnet relacionando os conceptos de inglés cos de eúscaro.

A creación destes recursos ten como obxectivo desenvolver, entre outros, os seguintes produtos comerciais:

  • Versión electrónica estruturada do Dicionario Vasco (integrada en CD-ROM, Internet e/ou procesadores de texto)
  • Un tesauro paira o eúscaro integrado en procesadores de textos: paira poder consultar as relacións entre sinonimia, hiperonimia, hiponimia e outros conceptos.

Historicamente, os recursos lexicales facíanse a man, pero tendo en conta que a cantidade de información que se tiña que traballar requiría dun gran esforzo, na última década iniciouse o camiño das axudas automáticas ou semiautomáticas. A partir da información contida nos dicionarios e corpus elaboráronse bases de coñecemento lexicales (LAE). A LAE dispón de recursos lexicales estruturados con información sobre palabras e acepcións. Por exemplo, no EBL Wordnet, que se distribúe gratuitamente, cada acepción en inglés exprésase cun conxunto de palabras sinónimas (o synset) e todas as acepcións están jerarquizadas. EuroWordnet é outro LBL do mesmo deseño que se estendeu a oito linguas europeas (alemán, español, estoniano, francés, inglés, italiano, holandés e checo). Dado que a maioría dos EBL creáronse paira o inglés, o resto de linguas atópanse nunha situación de vulnerabilidade fronte ás novas tecnoloxías. Paira facer fronte a esta situación vemos dúas solucións complementarias:

1. Creación de EBL a partir de corpus e dicionarios dispoñibles paira cada lingua. No noso caso, como fonte lexical. Utilizamos o Dicionario Vasco. O primeiro traballo consistiu en estruturar o Dicionario Vasco seguindo os estándares SGML-TEI. Así, o eúscaro será útil paira calquera persoa que estea a estudar ou teña una ferramenta de traballo. Analizando as definicións desta versión estruturada, obteremos una serie de relacións léxico-semánticas: sinonimia, hiperonimia (relación clase-sub-clase; por exemplo: animal insecto), meronimia (relación osoa-parte; por exemplo: txori-moko), etc.

2. Utilizar os BLRs elaborados en inglés paira crear BLRU paira outras linguas. No noso caso, partindo de EuroWordnet queremos facer Wordnet paira o eúscaro, relacionando os conceptos de inglés cos de eúscaro. Paira facer leste Wordnet ao eúscaro utilizaremos métodos semiautomáticos, pero logo peitearemos os resultados manualmente.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila