Ber2Tek: un pas més en les tecnologies per al basc

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

A poc a poc, els ordinadors estan dominant les llengües de l'ésser humà i, inconscientment, ens comuniquem cada vegada més amb elles utilitzant el llenguatge natural i les màquines ens ajuden cada vegada més amb els problemes lingüístics (traduir, corregir…). Però, també en basc? Afortunadament, gràcies a projectes de recerca com Ber2Tek, els dispositius digitals també ho fan en basc.
ber2tek-beste-aurrerapauso-bat-euskararentzako-tek
Una demo 3D avatar ens ensenyarà basc. Ed. Elhuyar I+D

Les tecnologies lingüístiques i de parla són les que permeten a les màquines comprendre, traduir o crear un llenguatge natural. Les tecnologies lingüístiques es refereixen a la capacitat d'interactuar amb els textos (corregir, comprendre, traduir, gestionar…) i les tecnologies de la parla a la capacitat de manejar la parla (comprendre, crear…). Com és lògic, les tecnologies més avançades es troben en les llengües amb major difusió i, per tant, amb més recursos (anglès, castellà, xinès…). No obstant això, en el basc i en altres llengües minoritzades la situació no és tan bona. No obstant això, els bascos no podem queixar-nos:tenint en compte la nostra situació minoritzada i l'escàs nombre de parlants, el basc no funciona tan malament, almenys proporcionalment.

Projecte Ber2Tek

De fet, molts agents d'Euskal Herria portem temps investigant tecnologies lingüístiques i de parla per al basc. Per exemple, portem molts anys col·laborant en un projecte estratègic la Fundació Elhuyar, els grups de recerca IXA i Aholkularitza de la Universitat del País Basc i els centres tecnològics Vicomtech-IK4 i Tecnalia. Aquesta col·laboració es va materialitzar anteriorment en tres projectes subvencionats pel Govern Basc a través del programa Etortek: Programes Hizking XXI (2002-2004), AnHitz (2006-2008) i BerbaTek (2009-2011). El fruit final d'aquesta col·laboració és el projecte Ber2Tek, desenvolupat entre 2012 i 2014, coordinat per Elhuyar I+D.

Al llarg d'aquests anys hem treballat molt en la recerca de les citades tecnologies, continuant amb la millora d'algunes de les tecnologies ja desenvolupades i generant moltes altres noves. S'han creat o millorat molts recursos generals (corpus, ontologies, diccionaris…); s'han treballat tècniques de creació automàtica d'aquests recursos; s'han millorat les eines d'anàlisis del basc (etiquetadors morfològics, sintàctics i semàntics, correctors, entitats coneixedores...); s'ha avançat en la traducció automàtica; s'han desenvolupat tecnologies de gestió de continguts; s'han desenvolupat tecnologies d'ensenyament; s'ha avançat en la creació i coneixement de la parla…

Però Ber2Tek i els seus predecessors no sols busquen la recerca: volem donar a conèixer aquestes tecnologies i convertir els resultats de la recerca en aplicacions i posar-los a la disposició del públic. Com a colofó al projecte, construïm una sèrie de demos o demostradors que mostrin la contribució d'aquestes tecnologies a un determinat camp. En aquest cas, hem volgut mostrar en què poden contribuir aquestes tecnologies al sector de la Indústria de les Llengües, és a dir, al sector format per les àrees de traducció, continguts i ensenyament. Els demos estan disponibles en http://www.ber2tek.eus/és/demoak .

Donem d'aplicacions pràctiques

Grup de treball de projectes de recerca Ber2Tek. Ed. Danel Solabarrieta/Elhuyar

Com a mostra del que es pot fer en el sector dels continguts, hem muntat una demo que ens mostra què és la tecnologia d'extracció d'opinions o anàlisis de sentiments. L'extracció d'opinions consisteix a extreure automàticament, a partir d'un text, si té una opinió subjectiva i, si la té, quina és la seva polaritat (positiva o negativa). Aquesta tecnologia pot tenir múltiples aplicacions, per exemple, perquè les empreses sàpiguen fàcilment el que es diu en la xarxa sobre ells o els seus productes (en molts llocs i en diferents idiomes). En la demografia que hem realitzat hem pres l'hemeroteca de Crítiques de la web Armiarma.eus, que recull més de 5.000 crítiques literàries en basc procedents de diversos mitjans de comunicació i publicacions, i a cadascuna d'elles se li ha assignat automàticament una puntuació aplicant la tecnologia d'extracció d'opinions en basca desenvolupada en Ber2Tek. Fent una selecció d'autors, obres, anys o altres paràmetres en la web de la demo, es poden visualitzar les puntuacions de manera gràfica, veure la pròpia crítica i analitzar les paraules positives i negatives. De fet, en aquestes paraules es basa la tecnologia per a assignar puntuacions.

Una altra demo mostra el que es pot fer en l'àmbit de la traducció a través d'un cercador multimèdia. S'han rebut diversos vídeos tant en castellà com en basc i s'han transcrit automàticament amb coneixement de veu. En obtenir el text d'aquests vídeos es poden realitzar cerques en ells i, si es desitja, saltar instantàniament a l'instant en el qual s'indica la paraula que es busca. Les transcripcions dels vídeos es tradueixen automàticament al castellà, al basc o a l'anglès, en els quals podem mostrar subtítols. Una vegada traduïts, també generem àudio en aquestes altres llengües, utilitzant la tecnologia de la síntesi de la parla, mentre que en el cas que es tracti de ponències de determinats ponents, la veu de l'orador produïda en l'altra llengua es produeix imitant la tecnologia de la transformació de la veu.

Finalment, hem realitzat la demo d'un tutor personal d'ensenyament d'idiomes per a aquest sector. Fa tres anys, al final del projecte BerbaTek, vam fer una cosa semblant, però aquesta vegada té més intencions i possibilitats; d'altra banda, era una aplicació d'escriptori, i aquesta vegada està online i pot ser provada per qualsevol persona. El tutor del demo és un avatar 3D amb el qual ens comuniquem en basc, oralment. El tutor ens guia en exercicis verbals, declinativos o de comprensió creats automàticament; ens avalua la nostra pronunciació; podem preguntar-li sobre la declinació de certs verbs i com s'escriu un número determinat; li podem dir que busqui una paraula en el diccionari; ens mostrarà resultats de diversos diccionaris…

Aquestes donem que hem muntat, com el seu propi nom indica, són només donem, però serveixen per a tenir una idea aproximada de l'estat actual de les tecnologies i del que poden fer, i esperem que aviat ho vegem aplicat a eines reals, com ja s'han creat anteriorment aplicacions reals des d'altres tecnologies.

Com veurem a través d'aquestes demos, és cert que les tecnologies lingüístiques i de veu per al basc estan bastant avançades. No obstant això, encara queda molt camí per recórrer si volem arribar a la situació d'altres llengües i si realment volem fer-ho en basca amb dispositius electrònics en tots els àmbits de la vida quotidiana. Almenys les organitzacions que hem dut a terme el projecte Ber2Tek no hem donat per finalitzat el nostre treball en finalitzar el projecte i continuem treballant per a dur-lo a terme alguna vegada.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila