Enginyeria lingüística Hizking21 XXI. a la porta del segle

Saiz Elizondo, Rafa

Itsas Enara Ornitologia Elkartearen lehendakaria

Més enllà del procés de textos, l'enginyeria lingüística aborda el que les computadores poden fer en l'àmbit lingüístic. L'objectiu general és que el mitjà de comunicació amb les màquines sigui cada vegada més natural, entre altres coses, perquè l'usuari parlarà o escriurà com acostuma i les màquines ho comprendran i, si es programa així, obeiran. En lloc de reproduir missatges ja gravats, les màquines crearan missatges comunicatius, tant escrits com verbals. Per a això és necessari un llarg camí i una gran feina bàsica. Detalls del projecte Corpus
(Foto: G. Andonegi).

El projecte que s'ha iniciat amb el nom d'Hizking21 té com a objectiu: Per a l'any 2005 disposar de les eines infolingüísticas disponibles actualment per a l'anglès en basc. Moltes d'elles seran creades específicament per al basc, unes altres hauran estat adaptades a altres llengües. La morfologia i especial sintaxi del basc faran que es trobin problemes que no hagin estat tractats anteriorment i que la tecnologia que es desenvolupi per a superar-los pugui convertir a Euskal Herria en un referent mundial en aquest camp.

Què hi ha avui

En l'actualitat, la referència a les tecnologies informàtiques lingüístiques en basca és imprescindible per als grups IXA i Aholkularitza de la Universitat del País Basc. Han desenvolupat diverses eines informàtiques per al tractament de la llengua: corrector ortogràfic, lematizador, desambiguador, etc. que seran en gran manera el punt de partida del projecte. No obstant això, perquè aquests treballin necessiten referències, lexicones, i per a completar-los i actualitzar-los, els corpus s'han convertit en una eina imprescindible, un repositori de textos classificats, etiquetatges i ordenats reflex del llenguatge real.

Com més es desenvolupi el processament del llenguatge natural, més fàcil serà utilitzar les eines informàtiques de treball. (Foto: G. Andonegi).

Els treballs realitzats per Elhuyar al llarg dels anys en l'elaboració de diccionaris lingüístics, així com en els diccionaris tècnics, serviran per a completar i alimentar aquests lèxics. El material elaborat i recopilat en el camp de la Ciència i la Tècnica serà també valuós en la creació de corpus molt especials.

La seva activitat principal és l'anàlisi i tractament de la veu. Disposa d'eines per a passar d'un fitxer de format de veu a text escrit i viceversa. Per a això també és imprescindible tenir referències: ensenyar a la màquina com conèixer el que ‘sent’ i com ‘escriu’.

Les eines i recursos que s'ofereixen són molt relacionats amb el basc. Per tant, la majoria són programes realitzats amb tecnologia pròpia desenvolupada. Quant a les interfícies, encara que una part del treball ja avançat en altres llengües és útil, el disseny dels avatars està molt avançat, cal fer-los parlar en basc. En aquest camí també han recorregut el seu camí i seguiran endavant.

La Fundació Robotiker, referent en connectivitat d'equips al País Basc, s'encarregarà de la tecnologia bàsica en Hizking21. A Euskal Herria, no obstant això, existeixen altres agents que treballen en aquest camp com l'ASP, la Tecnologia Diana...

Què cal fer

Es pretén realitzar la comunicació amb les màquines de la forma més natural possible. (Foto: G. Andonegi).

Avui dia és innegable la necessitat d'un corpus general de referència del basc, més encara si ens adhereixen a l'àmbit de l'enginyeria lingüística. No obstant això, un dels objectius d'Hizking21 és oferir una metodologia consensuada i contrastada que pugui ser la base per a la consecució d'aquest objectiu global de futur i desenvolupar eines de corpus per a això, juntament amb l'oferta de recursos parcials (corpus especialitzats) que es constitueixin en aquesta via.

Eines intermèdies Eines clau en el Projecte: Lematizador, desambiguador, analitzador sintàctic, etc., que hauran de ser complementades, adaptades i millorades de manera contínua. Addicionalment, eines per a la correcta explotació dels recursos lingüístics generats (analitzadors de textos, extractors de termes, etc.) també es crearan.

La llengua no hauria de ser un obstacle per a poder accedir als avanços.

Interfícies La comunicació amb les màquines serà en certa manera visual i verbal. A mesura que avança la tecnologia, els resultats seran millors, sobretot en la representativitat de les imatges 3D. Avui dia s'obtenen bons resultats amb la informació gravada, però cal tenir en compte que la immediatesa és imprescindible perquè la parla sigui natural: el sistema ‘entén’ els missatges, ha de crear i emetre una resposta, però la resposta no serà només una frase, sinó que haurà de transmetre's amb gestos, entonacions i expressions especials. Tot això exigeix grans necessitats computacionals, tant en el tractament lingüístic com en la síntesi de so i imatge.

I després, què?

Com s'ha esmentat anteriorment, el resultat del projecte Hizking21 no serà la creació d'aplicacions informàtiques concretes, sinó posar a la disposició dels aplicadors les eines i tecnologies que les permetin. Destinació de les empreses de programari per a la realització d'aplicacions en basca amb capacitat lingüística. Quines aplicacions? No falten idees: sistemes que reben ordres telefònicament (com els de domòtica), sistemes d'informació que han de respondre a les preguntes dels usuaris, ajudes per a la traducció automàtica, dictadura automàtica, lectors per a invidents, sistemes d'ajuda per a conduir visites en llocs públics, sistemes de gestió d'avisos en aeroports i estacions, etc. Les opcions són infinites. Només cal executar-los.

El projecte Hizking21 té un pressupost de 7.600.000 €. El Departament d'Indústria, Comerç i Turisme del Govern Basc va nomenar a la Infoingeniería Lingüística com una línia de recerca d'interès estratègic, secundada pel programa Etortek.

Hizking21 reuneix cinc socis: La Fundació Elhuyar, els grups IXA i Aholkularitza de la Universitat del País Basc, l'associació Vicomtech i la Fundació Robotiker. Col·labora Eleka S.L. l'empresa també participa en aquest projecte, creat entre IXA i Ehuy. Per part seva, posseeixen el coneixement i la capacitat necessàries per a dissenyar sistemes amb capacitat lingüística. El treball de tots els consorciats permetrà disposar en breu d'eines informàtiques que puguin ser incorporades a les aplicacions diàries.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila