Els corpus són mostres de referència del llenguatge escrit, grans col·leccions de textos i paraules. I estan en els fonaments de les tecnologies lingüístiques. Els sistemes de traducció automàtica i les aplicacions de reconeixement de veu no existirien sense corpus, ni tampoc els moderns diccionaris actuals.
Dirigit pel grup de recerca Ixa de la Facultat d'Informàtica de la UPV, l'investigador de la unitat de Llengua i Tecnologia d'Elhuyar Igor Leturia ha acudit a la web per a crear corpus en basc. Quan es va iniciar el treball de recerca, el corpus més gran en basc comptava amb 25 milions de paraules; “altres llengües van superar els 100 milions de paraules en la dècada dels 90”, explica Leturia. “Ens vam posar l'objectiu de superar aquesta barrera, quan comencem a analitzar si la web podia ser una bona font per a crear corpus en basc”, ha afegit.
Leturia ha aprofitat l'aproximació “com a corpus web”, ja que l'ús de la web com a font permet obtenir més fàcilment els corpus grans que manualment. L'extracció de corpus de la web mitjançant mètodes automàtics permet obtenir corpus variats, actualitzats i grans de forma molt més ràpida i econòmica. De fet, la major limitació dels corpus tradicionals és el seu cost: la recopilació i adaptació de textos en diferents formats i llocs requereix una gran mà d'obra, de la qual s'extreuen les col·leccions de paraules de referència en la llengua.
A través del treball de recerca, Leturia ha demostrat que és possible consultar directament la web com si fos un corpus en basc i, a través de les eines desenvolupades, ha creat des de la web un corpus general de 210 milions de paraules (consultable en el Portal de Web-Corpus). “Més del 95% de les paraules que apareixen en els Corpus desenvolupats a mà també són al nostre país —explica Leturia— i moltes altres que no les recullen”.
A més de crear corpus generals, Leturia ha demostrat que la web és útil per a crear corpus en determinades àrees de coneixement, tant per a obtenir col·leccions de text íntegrament en basc com per a crear col·leccions de text bilingües. En tots dos casos, els corpus de domini extrets de la web han estat assimilables als creats manualment. Ha treballat amb corpus d'informàtica, física de partícules i turisme, entre altres.
Leturia ha partit de mètodes automàtics aplicats en altres llengües per al seu desenvolupament, tenint en compte les característiques del basc, i ha buscat solucions adaptades a aquestes característiques del basc. “Com el basc té una menor massa de text que altres llengües i és més complex per al tractament automàtic, ens ha posat davant problemes més difícils”, ha explicat Leturia, que ha permès desenvolupar eines que no tenen “grans” llengües. Segons Leturia, han tingut l'oportunitat de realitzar aportacions originals i innovadores a l'àmbit de la tecnologia de les llengües, que són útils no sols per al basc, sinó també per a altres llengües amb necessitats i característiques similars al basc.