Hizking21 hizkuntz ingeniaritza XXI. mendearen atean

Saiz Elizondo, Rafa

Itsas Enara Ornitologia Elkartearen lehendakaria

Testuen prozesutik haratago, konputagailuek hizkuntzaren alorrean egin dezaketena jorratzen du hizkuntz ingeniaritzak. Makinekin komunikatzeko bidea gero eta naturalagoa izatea da, besteak beste, helburu orokorra: erabiltzailea ohi duen bezala mintzatuko da, edo idatziko du, eta makinek ulertu egingo diote, eta, hala programatuz gero, obeditu ere bai. Lehendik grabatutako mezuak errepikatu beharrean, mezu komunikatiboak sortuko dituzte makinek, idatzizkoak zein hitzezkoak. Horretarako, ordea, bide luzea eta oinarrizko lan handia egin behar da. Corpusak Proiektuaren xehetasunak
(Argazkia: G. Andonegi).

Hizking21 izenaz ekin zaion proiektuaren helburua hau da: 2005 urterako, gaur egun ingeleserako dauden tresna infolinguistikoak euskaraz ere izatea. Horietako asko euskararako propio sortuak izango dira, beste batzuk beste hizkuntzetarako daudenak egokituz lortuak. Euskararen morfologia eta sintaxi berezia direla eta, lehenago inork jorratu gabeko arazoak topatuko dira, eta horiek gainditzeko garatzen den teknologiak Euskal Herria mundu mailako erreferentzia bilaka lezake alor honetan.

Zer dagoen egun

Gaur egun euskarazko hizkuntz teknologia informatikoak aipatzekotan, ezinbestekoa da Euskal Herriko Unibertsitateko IXA eta Aholab taldeak aipatzea. Hizkuntzaren tratamendurako hainbat tresna informatiko garatu dituzte: zuzentzaile ortografikoa, lematizatzailea, desanbiguatzailea, etab.; eta horiek izango dira, hein handi batean, proiektuaren abiapuntua. Horiek lan egingo badute, ordea, erreferentziak behar dituzte, lexikoiak; eta horiek osatu eta eguneratzeko berriz, ezinbesteko tresna bilakatu dira corpusak, hizkuntza errealaren isla diren testu-biltegi sailkatu, etiketatu eta antolatuak.

Zenbat eta gehiago garatu hizkuntza naturalaren prozesamendua, orduan eta aiseago erabili ahal izango dira lan-tresna informatikoak. (Argazkia: G. Andonegi).

Elhuyarrek urteetan zehar hiztegigintzan egindako lanak, bai hizkuntz hiztegietan bai hiztegi teknikoetan, baliabide aproposa izango dira aipatu lexikoi horiek osatu eta elikatzeko. Zientzia eta Teknikaren alorrean osatu eta bildu duen materiala ere baliotsua izango da oso corpus bereziak sortze bidean.

Aholabek ahotsaren analisia eta tratamendua du bere jardun nagusia. Ahots-formatuko fitxategi batetik testu idatzira igarotzeko tresnak baditu, eta alderantzizkoak ere bai. Horretarako ere ezinbestekoa da erreferentziak izatea: makinari ‘entzun’ duena nola ezagutu eta nola ‘idatzi’ behar duen irakatsi behar zaio.

Horra bitarteko tresna eta baliabideak euskarari estu lotutakoak dira. Beraz, gehienak propio garatutako teknologiaz egindako programak dira. Interfazeei dagokienez, berriz, beste hizkuntzetan dagoeneko aurreratutako lanaren zati bat baliagarria den arren —avatarren diseinua oso aurreratuta dago—, euskaraz hitz eginarazi behar zaie. Horretan ere Aholabek eta Vicomtechek beren bidea egina dute eta aurrera segituko dute.

Robotiker Fundazioa erreferentzia da ekipoen arteko konektagarritasunaren arloan Euskal Herrian, eta oinarrizko teknologiaren ardura izango du Hizking21en. Euskal Herrian, dena dela, badira alor horretan diharduten beste agente batzuk ere, hala nola ASP, Diana Teknologia...

Zer dagoen egiteko

Makinekiko komunikazioa ahalik eta modu naturalenean gauzatu nahi da. (Argazkia: G. Andonegi).

Gaur egun ukaezina da euskararen erreferentzia-corpus orokorraren beharra, are gehiago, hizkuntz ingeniaritzaren alorrari atxikitzen bagatzaizkio. Alabaina, etorkizuneko helburu orokor hori lortzeko oinarri izan daitekeen metodologia adostua eta kontrastatua eskaintzea eta horretarako corpus-tresnak garatzea da Hizking21en helburuetako bat, bide horretan osatuko diren baliabide partzialak (corpus berezituak) eskaintzearekin batera.

Tarteko tresnak
Proiektuan giltzarri diren hainbat tresna: lematizatzailea, desanbiguatzailea, analizatzaile sintaktikoa eta beste hainbat, etengabe osatu, egokitu eta hobetu beharko dira. Horrez gain, sortutako hizkuntz baliabideak behar bezala ustiatzeko tresnak (testu-analizatzaileak, termino-erauzleak, etab.) ere sortuko dira.

Hizkuntzak ez luke oztopo izan behar aurrerakuntzez baliatu ahal izateko.

Interfazeak
Makinekiko komunikazioa ikusizkoa eta ahozkoa izango da neurri batean. Teknologiak aurrera egin ahala, emaitza hobeak lortuko dira, batez ere, 3D irudien adierazkortasunean. Gaur egun emaitza onak lortzen dira grabatutako informazioarekin, baina kontuan izan behar da berehalakotasuna ezinbestekoa dela hizketa naturala izango bada: sistemak mezuak ‘ulertu’, erantzuna sortu eta igorri egin behar du, baina erantzuna ez da esaldi hutsa izango, keinu, intonazio eta espresio bereziek lagunduta igorri beharko baita. Horrek guztiak beharrizan konputazional handiak eskatzen ditu, nola trataera linguistikoari dagokionez, hala soinua eta irudia sintetizatzeari dagokionez.

Eta gero, zer?

Lehenago esan den bezala, Hizking21 proiektuaren emaitza ez da aplikazio informatiko jakinak sortzea izango, baizik horiek ahalbidetuko dituzten tresna eta teknologiak aplikazio-sortzaileen eskuetan jartzea. Software-enpresek nora jo izango dute ahalmen linguistikoa duten euskarazko aplikazioak egin nahi badituzte. Zein aplikazio? Ideiak ez dira falta: aginduak telefonoz jasotzen dituzten sistemak (domotikakoak, kasu), erabiltzaileen galderei erantzun behar dieten informazio-sistemak, itzulpen automatikorako lagungarriak, diktaketa automatikoa, itsuentzako irakurgailuak, leku publikoetako bisitaldiak gidatzen laguntzeko sistemak, aireportu eta geltokietako abisuak kudeatzeko sistemak... Aukerak amaigabeak dira. Horiek gauzatu besterik ez dago.

Hizking21 proiektuak 7.600.000 €-ko aurrekontua du. Eusko Jaurlaritzaren Industria, Merkataritza eta Turismo Sailak Infoingeniaritza Linguistikoa interes estrategikoko ikerketa-lerro izendatu zuen, eta Etortek programaren bidez lagundu dio.

Hizking21en bost partzuer bildu dira: Elhuyar Fundazioa, Euskal Herriko Unibertsitateko IXA eta Aholab taldeak, Vicomtech elkartea eta Robotiker Fundazioa. Laguntzaile moduan, Eleka S.L. enpresak ere badihardu proiektu honetan, IXAren eta Ehuyarren artean sortua. Zein bere aldetik, hizkuntz gaitasuna duten sistemak diseinatzeko behar den ezagutzaren eta gaitasunaren jabe dira. Partzuer guztien lanari esker, posible izango da hemendik gutxira hainbat tresna informatiko eskura izatea eguneroko aplikazioetan txertatzeko moduan.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila