Weba euskarazko corpus gisa baliatzeko tresnak garatu ditu EHUko eta Elhuyarko ikertzaile-talde batek

210 milioi hitzeko corpus automatiko bat sortu dute

weba-euskarazko-corpus-gisa-baliatzeko-tresnak-gar
Igor Leturia. Weba euskarazko corpus gisa baliatzeko tresnak garatu ditu. Arg. Elhuyar Zientzia

Idatzizko hizkuntzaren erreferentziazko laginak dira corpusak, testuen eta hitzen bilduma erraldoiak. Eta hizkuntza-teknologien oinarrietan daude. Itzulpen automatikoko sistemak eta ahotsa ezagutzeko aplikazioak ez lirateke existituko corpusik gabe, ez eta gaur egungo hiztegi modernoak ere.

EHUko Informatika Fakultateko Ixa ikerketa-taldeak gidatuta, Elhuyarren Hizkuntza eta Teknologia unitateko Igor Leturia ikertzaileak webera jo du euskarazko corpusak sortzeko. Ikerketa-lanari ekin ziotenean, euskarazko corpus handienak 25 milioi hitz zituen; “beste hizkuntza batzuek 1990eko hamarkadan gainditu zuten 100 milioi hitzen langa”, dio Leturiak. “Langa hori gainditzeko helburua jarri genuen, weba euskarazko corpusak sortzeko iturri egokia izan zitekeen aztertzen hasi ginenean”, gaineratu du.

Automatikoki, errazago eta merkeago

“Web corpus gisa” hurbilketa baliatu du Leturiak, weba iturri gisa erabiltzeak bide ematen baitu corpus handiak eskuz baino errazago lortzeko. Metodo automatikoak erabiliz corpusak webetik erauzteko, askoz azkarrago eta merkeago lortzen dira corpus askotariko, eguneratu eta handiak. Izan ere, corpus tradizionalen mugarik handiena kostua da: eskulan handia eskatzen du formatu eta toki desberdinetan dauden testuak biltzeak eta egokitzeak, horietatik hizkuntzaren erreferentziazko hitz-bildumak erauzteko.

Ikerketa-lanaren bidez, Leturiak frogatu du posible dela weba zuzenean kontsultatzea euskarazko corpus bat balitz bezala, eta, garatutako tresnen bidez, 210 milioi hitzeko corpus orokor bat sortu du webetik (Web-Corpusen Atarian dago kontsultagarri). “Eskuz garatutako Corpusetan dauden hitzen % 95etik gora gurean ere badaude —azaldu du Leturiak—, eta, gainera, haiek jasotzen ez dituzten beste asko ere bai”.

210 milioi hitzeko corpus orokor bat kontsulta daiteke Web-Corpusen Atarian

Corpus orokorrak sortzeko ez ezik, weba jakintza-arlo zehatz batzuetarako corpusak egiteko ere baliagarria dela frogatu du Leturiak, bai euskarako testu-bilduma hutsak lortzeko, bai testu-bilduma elebidunak eratzeko. Bi kasuetan, webetik erauzitako domeinu-corpusak eskuz sortutakoekin parekagarriak izan dira. Informatikaren, partikulen fisikaren eta turismoaren arloko corpusekin egin du lan, besteak beste.

Leturia beste hizkuntzetan aplikatzen diren metodo automatikoetatik abiatu da bereak garatzeko, kontuan izanda euskarak dituen ezaugarriak, eta euskararen ezaugarri horietara egokitutako konponbideak bilatu ditu. “Euskarak beste hizkuntza batzuek baino testu-masa txikiagoa duenez, eta konplexuagoa denez tratamendu automatikorako, arazo zailagoen aurrean jarri gaitu”, azaldu du Leturiak, eta azpimarratu du, horrek aukera eman diela hizkuntza “handiek” ez dituzten tresna batzuk garatzeko. Leturiaren esanean, hizkuntzen teknologiaren arloari ekarpen originalak eta berritzaileak egiteko aukera izan dute, eta, euskararentzat ez ezik, euskararen antzeko beharrak eta ezaugarriak dituzten beste hizkuntza batzuentzat ere erabilgarriak dira garatutako tresnok.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila