…i treballant les tecnologies lingüístiques 20!

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

La Fundació Elhuyar compleix enguany el seu 50 aniversari, però a més compleix 20 anys des que en Elhuyar iniciem la recerca, desenvolupament i comercialització de les tecnologies lingüístiques. 20 anys, amb l'única intenció i l'únic objectiu de desenvolupar i posar a la disposició de la societat les tecnologies lingüístiques i de la parla, tan necessàries com qualsevol altra llengua. Fruit d'aquesta activitat són, entre altres, els nostres corpus, diccionaris, correctors, traductors automàtics (Elia.eus), transcriptores automàtics (Jakin.eus) o sintetitzadors de parla que s'han convertit en imprescindibles per a molts i molt coneguts.

eta-hizkuntza-teknologiak-lantzen-20
Ed. Elhuyar

L'any 2002 va suposar una fita important per a Elhuyar. El pas de l'associació cultural que va donar aquest mateix any que va complir 30 anys a la fundació. Però, a més, conscients de la seva importància futura i anticipant-se al futur, va començar a treballar en l'àmbit de les tecnologies lingüístiques. I sembla que amb un no bastava, i ho va fer en dos fronts.

Eleka i Elhuyar I+D

D'una banda, la creació de l'empresa Eleka. El Grup IXA de la UPV/EHU portava diversos anys realitzant una recerca bàsica en tecnologies del perfil per al basc, i ja havia realitzat l'etiquetador (llavors Euslem, després Eustagger ), el corrector ( Xuxen ) i el traductor automàtic ( Matxin ). Però els treballs que la seva posada a disposició o comercialització requeria (adaptacions a diferents plataformes, noves versions, etc.) estaven fos de les tasques habituals d'un equip de recerca universitari, per la qual cosa no era desitjable i es realitzava correctament. Elhuyar va mostrar la seva disposició a ajudar a cobrir aquest buit i així es va crear conjuntament l'empresa Eleka. Des de llavors, no sols aquests primers, sinó que ha continuat comercialitzant moltes altres eines basades en les tecnologies del llenguatge i de la parla, fins a l'actualitat. I amb el temps, la recerca pròpia d'Elhuyar ha anat orientant cada vegada més cap a la socialització, en estreta i fructífera col·laboració.

De fet, dins d'Elhuyar es va crear un nou departament, Elhuyar I+D, l'objectiu de la qual era la recerca i desenvolupament de les tecnologies lingüístiques que necessitaven altres departaments d'Elhuyar. Al principi va orientar la seva activitat cap a l'elaboració d'eines especialment per a l'elaboració de diccionaris, un departament important per a Elhuyar: En 1996 va veure clar el basc -castellà/espanyol-euskara Elhuyar Hiztegia era un referent, es pretenia estendre la producció de diccionaris a més idiomes, fer més diccionaris terminològics… Així, Elhuyar I+D va iniciar treballs de recopilació de corpus textuals (per exemple, corpus ZT), va desenvolupar tècniques i eines per a la recopilació automàtica de corpus de diferents tipus (monolingües generals i especialitzats, bilingües paral·lels i comparables…), va desenvolupar tècniques per a la creació automàtica d'ontologies, va desenvolupar eines per a la construcció automàtica de diccionaris des de corpus… A més d'aquests, la sèrie aviat va començar a investigar sobre els materials de la cerca i va desenvolupar eines com el cercador multilingüe existent en la Ciència. Com es pot observar, aquestes conegudes eines d'altres departaments d'Elhuyar eren un excel·lent aparador i reflex del que feia Elhuyar I+D. Però l'activitat no es va limitar a això i s'ha diversificat molt en els últims 20 anys.

Com en tots els grups de recerca, la recerca s'ha realitzat seguint les tendències internacionals en Elhuyar I+D, basant-se en les últimes recerques acadèmiques i aportant al camp. Així, ha publicat més de 100 articles científics en congressos o revistes especialitzades i s'han realitzat 7 tesis doctorals en el Departament. Elhuyar I+D ha mantingut una estreta i contínua col·laboració amb el Grup IXA. I durant més de 15 anys ha col·laborat amb el Grup IXA Taldea, el Grup de Recerca Aholab de la UPV/EHU i els grups de recerca Tecnalia i Vicomtech en diversos projectes de col·laboració en recerca estratègica, en molts casos com a líders.

Moment actual de les xarxes neuronals profundes

Al llarg dels 20 anys s'ha produït una gran evolució en les tècniques utilitzades en les tecnologies del perfil. Quan comencem a això, dominaven les tècniques que es deien de regles. En aquests casos, el coneixement de la llengua (paraules, normes de declinació…) se situava en llenguatges i estructures comprensibles per als ordinadors. Amb aquests mètodes, algunes coses es feien molt bé (l'esmentat etiquetatge, la correcció ortogràfica, la cerca, etc.), però no tan bé com la traducció automàtica o el coneixement de la parla. Posteriorment van aparèixer mètodes d'aprenentatge automàtic o estadístics que aprenien dels exemples, però tampoc amb ells s'obtenien els resultats suficients en algunes tasques, almenys en basca.

Orai està desenvolupant un altaveu intel·ligent en basc Mycroft. Ed. Elhuyar

Fa cinc o sis anys van aparèixer en escena els mètodes coneguts com a xarxes neuronals profundes (Deep Neural Networks) o estudis profunds (Deep Learning). De fet, són un cas particular de l'aprenentatge automàtic, i a més les xarxes neuronals existien des de fa temps, però al no donar bons resultats estaven descartades. L'avanç de la tecnologia va permetre l'ús de xarxes neuronals més grans i complexes (d'aquí la denominació de “profundes”), la GPU o les targetes gràfiques van accelerar molt els seus temps de conducció o entrenament, i el gran avanç de la digitalització i Internet va proporcionar molts més dades per al seu entrenament i, en suma, moltes tasques complexes, com la traducció automàtica o la transcripció automàtica, el resultat de la qual va ser molt més recent que fins llavors. I després de les proves vam veure que aconseguíem el mateix amb el basc. Gairebé d'un dia per a un altre, en molts treballs els resultats són acceptables. Per fi!

Des de llavors hem desenvolupat amb èxit diverses tecnologies per al basc, que estem posant a la disposició de la societat: El traductor automàtic Elia.eus, el transcriptor automàtic Jakin.eus, la síntesi parlada personalitzada, els models neuronals de llenguatges tipus BERT, els xats bots, l'altaveu intel·ligent en basc Mycroft.eus… tots ells han tingut una influència notable en la societat basca i en la situació digital del basc, i probablement més intensa en el futur.

El futur és Orai

Amb l'explosió provocada per les xarxes neuronals profundes, l'activitat d'Elhuyar en les tecnologies del llenguatge i de la parla i l'equip de treball, que agrupen persones dedicades a la recerca i al desenvolupament d'eines i serveis, ha experimentat un important creixement.

I enguany, 2022, tan significatiu per a Elhuyar, hem fet un altre salt significatiu: El departament d'I+D d'Elhuyar compta ara amb nous noms i marques, les tecnologies Orai NLP. Però és més que un simple canvi de nom, també ha canviat l'ésser. Sense abandonar la labor de creació dels recursos i eines lingüístiques necessàries per al basc, es pretén incrementar l'esforç en l'aplicació del potencial de la intel·ligència artificial i les tecnologies del perfil a les empreses basques, mitjançant la realització d'una recerca a mesura i contribuint al fet que aquestes siguin més competitives i superin les barreres lingüístiques. A més, es pretén aprofundir més en el camí ja emprès per a ser un vehicle demostratiu i d'acompanyament per a les altres llengües minoritàries, i, com hem desenvolupat traductors automàtics i sintetitzadors de parla per als membres occitans i aragonesos, es vol continuar elaborant més eines per a ells o per a altres llengües minoritzades. Tal com recull el lema de l'aniversari d'Elhuyar, 50 anys més tard en Orai mirem perquè la societat basca, el basc i altres llengües petites tinguin un futur lluminós.

Elhuyar sempre ha sabut, atent a l'evolució de la societat, guanyar nous espais per al basc i respondre a les noves necessitats del basc. Fa 20 anys va demostrar un fort instint de futur a l'hora de fer un pas ferma i decidit a favor de les tecnologies del llenguatge i, per fe o per generositat, ha mantingut la seva aposta al llarg d'aquests anys (malgrat ser anys una travessia de veritable desert: crisi, promeses de bons resultats que no es complien en la traducció automàtica i altres tasques…). Estem rebent els fruits, i nosaltres mateixos estem d'enhorabona, perquè en Elhuyar estem fent moltes coses interessants i sorprenents, però també el basc, que està adquirint eines per a no quedar-me enrere en el món digital actual i futur, i si em permeten l'atreviment, i això que escriu aquestes línies, perquè des de gairebé un principi he tingut el privilegi i l'honor de treballar en el grup d'I+D de les tecnologies lingüístiques d'Elhuyar. Per tant, felicitats i gràcies, Elhuyar! I enhorabona també a Ori i al grup de les tecnologies del perfil, i per molts anys!

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila