Está a crearse una nova industria ao redor da lingua, cuxo obxectivo é tratar a lingua coa computadora. Para que este campo avance, son necesarios recursos lexicales que acheguen significado ás palabras. Nos criterios do programa Language Engineering da Unión Europea destácase o papel fundamental dos recursos lexicales.
O proxecto Hiztegia 2002, que conta tamén co apoio da Unión Europea (FEDER, 2FD97-2000-2001), está relacionado cos seguintes proxectos que tiveron como obxectivo a creación de recursos lexicales: Wordnet, EuroWortdnet e ITEM. Con este proxecto, o grupo IXA pretende:
A creación destes recursos ten como obxectivo desenvolver, entre outros, os seguintes produtos comerciais:
Historicamente, os recursos lexicales facíanse a man, pero tendo en conta que a cantidade de información que se tiña que traballar requiría dun gran esforzo, na última década iniciouse o camiño das axudas automáticas ou semiautomáticas. A partir da información contida nos dicionarios e corpus elaboráronse bases de coñecemento lexicales (LAE). A LAE dispón de recursos lexicales estruturados con información sobre palabras e acepcións. Por exemplo, no EBL Wordnet, que se distribúe gratuitamente, cada acepción en inglés exprésase cun conxunto de palabras sinónimas (o synset) e todas as acepcións están jerarquizadas. EuroWordnet é outro LBL do mesmo deseño que se estendeu a oito linguas europeas (alemán, español, estoniano, francés, inglés, italiano, holandés e checo). Dado que a maioría dos EBL creáronse paira o inglés, o resto de linguas atópanse nunha situación de vulnerabilidade fronte ás novas tecnoloxías. Paira facer fronte a esta situación vemos dúas solucións complementarias:
1. Creación de EBL a partir de corpus e dicionarios dispoñibles paira cada lingua. No noso caso, como fonte lexical. Utilizamos o Dicionario Vasco. O primeiro traballo consistiu en estruturar o Dicionario Vasco seguindo os estándares SGML-TEI. Así, o eúscaro será útil paira calquera persoa que estea a estudar ou teña una ferramenta de traballo. Analizando as definicións desta versión estruturada, obteremos una serie de relacións léxico-semánticas: sinonimia, hiperonimia (relación clase-sub-clase; por exemplo: animal insecto), meronimia (relación osoa-parte; por exemplo: txori-moko), etc.
2. Utilizar os BLRs elaborados en inglés paira crear BLRU paira outras linguas. No noso caso, partindo de EuroWordnet queremos facer Wordnet paira o eúscaro, relacionando os conceptos de inglés cos de eúscaro. Paira facer leste Wordnet ao eúscaro utilizaremos métodos semiautomáticos, pero logo peitearemos os resultados manualmente.