Auzolan digital a favor del basc

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En les nostres vides cada vegada estan més integrades eines i serveis que utilitzen tecnologies lingüístiques i de parla: assistents virtuals, altaveus intel·ligents, traductors automàtics... El desenvolupament d'aquestes tecnologies requereix de recursos, però no sols econòmics; en particular, els recursos lingüístics per a entrenar els sistemes són absolutament necessaris: enregistraments d'àudio, exemples d'entrevistes, traduccions... Són més escassos en basc que en altres llengües més esteses, per la qual cosa, com demostren algunes iniciatives recents, últimament s'està recorrent al crowdsourcing per a crear aquests recursos. Darrere d'aquest grandiós anglicisme, al cap i a la fi, només hi ha un auzolan tan arrelat entre nosaltres, en aquest cas l'auzolan digital.
auzolan-digitala-euskararen-alde
Ed. Common Voice

Qui no ha utilitzat mai un assistent virtual o agent de diàleg? Siri, Google Assistant, Cortana i altre vénen instal·lats per defecte en els nostres telèfons mòbils i ordinadors, i encara que jo, per exemple, no he utilitzat més que per a fer la prova, és molt habitual que les generacions joves els utilitzin. Els sistemes de diàleg per text, també coneguts com chatbots, són cada vegada més habituals en llocs web, apps i programes de missatgeria com a Whatsapp. La traducció automàtica s'ha convertit gairebé en un recurs quotidià per a comprendre un text que es troba en un idioma que no dominem o, almenys, quan necessitem crear un text en un altre idioma per a tenir una primera versió per a corregir-lo. Hi ha molts serveis i webs per a això, i els traductors automàtics vénen integrats en apps i webs. Els àudios i vídeos també es transcriuen o subtitulen automàticament.

Quines característiques comunes tenen tots aquests exemples? Almenys dues coses: una, totes elles basades en tecnologies lingüístiques i de parla; l'altra, que no existeix en euskara o que, en general, funcionen pitjor que en altres llengües.

Una de les causes d'aquesta última és, lògicament, l'econòmica. Molts més recursos humans i econòmics s'assignen a la recerca i desenvolupament d'aquesta mena de tecnologies en llengües de gran grandària, a causa de la grandària, poder i difusió de les grans llengües, i molt menys al desenvolupament en basc. Però hi ha una altra raó: hi ha una gran diferència en la disponibilitat d'enregistraments, traduccions, exemples de diàleg, etc. Les llengües hegemòniques tenen molts més recursos disponibles que el basc.

De fet, en l'actualitat, els mètodes més utilitzats per al desenvolupament de les tecnologies lingüístiques i de la parla i que ofereixen millors resultats es basen en exemples. En particular, la tecnologia utilitzada actualment en aquestes tecnologies és la de xarxes neuronals profundes (deep neural networks), amb les quals s'ha demostrat que la millor qualitat s'aconsegueix. I aquests sistemes necessiten molts exemples per a poder aprendre i funcionar d'alguna manera d'ells. Un sistema de traducció automàtica a través de xarxes neuronals requereix molts exemples de traducció per a entrenar i desembolicar-se correctament; un sistema de diàleg, molts exemples de converses i un sistema de transcripció, molts exemples d'àudios transcrits. Per això són tan necessaris els recursos lingüístics esmentats, i per això els sistemes de les llengües amb menys recursos d'aquest tipus funcionen pitjor.

Els bascos, per la seva temàtica, volem ser també en la nostra llengua els instruments i serveis d'altres llengües, i per a això és necessari crear recursos lingüístics, per la qual cosa recentment s'han posat en marxa diverses iniciatives per a la seva creació a través del crowdsourcing. El crowdsourcing significa aprofitar la col·laboració de moltes persones per a aconseguir alguna cosa, especialment amb el desenvolupament d'Internet, que facilita la comunicació i coordinació de grups de persones. Però darrere d'aquest nom, al cap i a la fi, no hi ha més que un auzolan que venim utilitzant des de fa temps, en aquest cas l'auzolan digital (terme utilitzat per l'associació Librezale per a designar la iniciativa Common Voice que exposarem a continuació).

Iniciativa Common Voice en basca

Common Voice és un dels últims projectes per a crear recursos per al basc. De fet, no és una iniciativa creada en el mateix País Basc, sinó una iniciativa posada en marxa per la Fundació Mozilla. La Fundació Mozilla, entitat que es troba darrere del navegador lliure Firefox, té com a objectiu aconseguir una web oberta i lliure que faciliti l'accés al públic en general, incloent el propi navegador Firefox i altres dispositius i eines. Per a això, pretén crear tecnologia lliure de coneixement de la parla per al major nombre de llengües possibles. A través del projecte Common Voice, la gent dóna enregistraments de veu per a poder desenvolupar sistemes de reconeixement de la parla. Aquests enregistraments són lliures, per la qual cosa no sols Mozilla, sinó qualsevol altra persona pot aprofitar-les per a desenvolupar tecnologia de reconeixement de parla. Nombroses persones de tot el món estan realitzant enregistraments en diversos idiomes en el projecte Common Voice: S'han gravat unes 2.000 hores en 28 idiomes i altres idiomes estan en vies.

Librezale té com a objectiu impulsar el basc en el món de les TIC i prioritza el programari lliure. Al febrer va llançar la iniciativa de realitzar enregistraments en basc dins del projecte Common Voice. Librezal va fer els seus primers treballs (traducció de la web, recopilació de frases per a gravar...) i, una vegada posada en marxa, ha treballat en la promoció de la iniciativa, en l'organització de maratons, etc. amb la col·laboració de diferents agents: Els grups Argia, iAmetza, IXA i Aholkularitza de la UPV, Garabide, Elhuyar Fundazioa... S'ha realitzat una gran labor que està donant els seus fruits: quatre mesos després de la posada en marxa del projecte, gràcies a 508 usuaris, s'havien gravat 83 hores, de les quals 45 estaven validades. No està res malament, tenint en compte que en la mateixa època i abans, en castellà, per exemple, hi havia 32 hores realitzades; en italià, 35 hores; en holandès, 21 hores... Estem lluny de les 1.200 hores que es volen aconseguir, però sens dubte va per bon camí. Si vols col·laborar amb la iniciativa entra en https://voice.mozilla.org/eu i grava frases o valguda les que hi ha.

Recollida d'entrevistes del Grup IXA

També en el grup IXA de la Universitat del País Basc han pres el camí de l'auzolan digital per a desenvolupar un chatbot o sistema de diàleg per al basc. En concret, es pretén desenvolupar un chatbot que respongui a les sol·licituds d'informació de l'usuari buscant informació en Internet, mantenint la conversa de la forma més natural possible. La iniciativa es desenvoluparà dins d'un projecte de recerca: Dirigit pels professors Eneko Agirre i Aitor Soroa, compta amb la participació dels investigadors Jon Ander Campos i Arantxa Otegi, així com de l'alumne de màster Aitor Agirre. A més, ha rebut un dels premis de recerca que atorga anualment Google (Google Faculty Research Awards). El projecte està basat en entrevistes en anglès, però s'utilitzarà per al seu desenvolupament en altres llengües.

Com s'ha dit, el desenvolupament d'un sistema d'aquestes característiques requereix de molts exemples de converses reals que han volgut complementar-se amb l'aportació dels bascos voluntaris. Per a això van preparar una pàgina web en la qual els usuaris van ser col·locats de dos en dos, un preguntava sobre un article de Wikipedia i l'altre li donava respostes en sessions d'al voltant de 10 minuts. Un exemple d'una conversa d'aquest tipus, basada en l'article de la Korrika de Wikipedia, seria:

Ed. AAC

- Què és Korrika?

- Korrika és una marxa que es corre per Euskal Herria a favor del basc.

- Quina longitud té?

- El recorregut canvia però sempre ronda els 2.300 quilòmetres.

- Quant temps?

- Unes dues setmanes.

- Sense parar?

- Sí, la marxa mai es deté, ni a la nit, ni per les males condicions climatològiques.

La recopilació d'exemples es va dur a terme al juny, amb la intenció de rebre 400 entrevistes i 356 entrevistes. No és poc! Es pretén alliberar les entrevistes rebudes perquè qualsevol persona pugui utilitzar-les en qualsevol altre projecte.

És clar que aquest tipus d'iniciatives són molt interessants i necessàries per al futur. Si els bascos encertem a portar a bon port l'auzolan tan propi en el món digital, segur que aconseguirem que les màquines parlin en basca.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila