Modernització tecnològica del vocabulari

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En l'elaboració de diccionaris, com en gairebé qualsevol altra activitat, s'han produït profunds canvis en els últims anys de la mà de la tecnologia. Hem passat de tenir com a base i com a objectiu el paper i d'exigir una gran feina manual a utilitzar textos i corpus electrònics, automatitzar bona part del procés i utilitzar suports digitals per a la seva publicació. En l'elaboració de diccionaris d'Elhuyar també hem fet aquest pas de modernització acompanyat de les tecnologies lingüístiques.
hiztegigintza-teknologiaz-modernizatzen
Nova web del diccionari Elhuyar. - Ed.

Un dels quatre departaments principals d'Elhuyar és el de Llengua i Tecnologia. Dins d'ella se subdivideixen en serveis de traducció, lexicografia i tecnologies lingüístiques. Les tecnologies lingüístiques són moltes i són útils en molts àmbits. I nosaltres també investiguem, desenvolupem i comercialitzem aquells que són útils per a molts camps, però, com és normal, treballem especialment aquells que són útils per a altres àrees d'Elhuyar. Per exemple, en els serveis de traducció treballem la traducció automàtica i les tecnologies de memòries de traducció que poden aportar un avantatge competitiu, així com moltes tecnologies d'interès per al vocabulari.

Facilitant el procés de treball

Un dels treballs a realitzar en l'elaboració de diccionaris és la selecció de paraules. Hem desenvolupat eines de suport a això, mitjançant l'aplicació de corpus textuals, combinant tècniques lingüístiques i estadístiques que extreuen les paraules, termes o localitzacions més significatives d'aquestes.

Un d'ells és Erauzterm. Després d'oferir un corpus especialitzat en una determinada àrea del basc, Erauzterm detecta els termes que apareixen en ella. No és perfecte en la mesura de les eines automàtiques, però té una interfície per a realitzar un repàs manual.

ElexBI fa una cosa semblant però en bilingüe. A partir d'un corpus paral·lel (recopilació de textos que són traduccions entre si, alineats a nivell de frase), extreu les seves equivalències de termes, és a dir, els parells de termes de totes dues llengües. Aquesta eina s'ha habilitat com a servei web amb el nom d'Itzulterm. I amb aquesta eina s'ha elaborat el diccionari de Formació Professional.

AzerHitz fa el mateix que Elexbi, però en lloc de prendre com a matèria primera corpus paral·lels (ja que els corpus paral·lels no estan tant com es vulgui o no són tan grans com es vulgui, sobretot en àrees especialitzades o en determinats paris d'idiomes) utilitza corpus comparables. Aquestes són col·leccions de textos multilingües que tracten un mateix tema sense haver de traduir-los entre si. AzerHitz és capaç d'extreure una terminologia bilingüe d'aquesta mena de corpus.

Un altre dels instruments per a extreure informació lexicogràfica dels textos és el Konemat. Aquest extreu dels textos en basc les combinacions, encolaciones, fraseologia, etc. De moment, saca les combinacions més usuals de noms, adjectius i noms.

Tenim també l'eina PopLex, que crea nous diccionaris utilitzant dos diccionaris i un llenguatge pont. Es van publicar cinc diccionaris en basc online creats amb ell en el portal de diccionaris construïts automàticament, tal com us comptem al juliol.

Matèria primera de treball, corpus

Com heu vist, moltes d'aquestes tecnologies necessiten de corpus, i per això és una de les àrees en les quals treballem molt la corpus digital. Juntament amb el Grup IXA de la UPV/EHU creem el Corpus de Ciència i Tecnologia; per a la Fundació Eroski formem el corpus multilingüe de la revista Consumer; i per a Euskaltzaindia, estem formant el Corpus de l'Observatori del Lèxic juntament amb el Grup IXA i UZEI.

No obstant això, atès que l'elaboració de corpus és costosa, en els últims anys estem creant eines per a poder utilitzar la web per a formar corpus. Per a poder consultar Internet com a corpus, fa uns anys llancem el servei CorpEus online. I des de la web tenim també eines per a crear automàticament grans corpus generals, corpus especialitzats, corpus paral·lels i corpus comparables. A través d'un gran corpus general en basc construït automàticament des de la web, un gran corpus paral·lel basc-castellà i les combinacions extretes del gran corpus general a través de l'eina abans esmentada, es vam posar a consulta en el Portal de corpus Web, tal com us comentem al febrer.

Nova web d'Elhuyar Hiztegiak

A més de facilitar el procés de treball d'elaboració de diccionaris i subministrar corpus electrònics per a matèries primeres, la tecnologia en general i les tecnologies lingüístiques en particular poden millorar considerablement l'experiència dels usuaris del diccionari. Des que fa uns anys van començar a col·locar els diccionaris en la web, en la majoria dels casos s'ha ofert l'opció de les caixes de cerca per a poder realitzar cerques ràpides en lloc d'anar a buscar en una llista ordenada alfabèticament (encara que ja existeixen les que simplement es limiten a posar online els PDFs dels diccionaris). Però els resultats que s'ofereixen després de la cerca són similars als que ofereixen els diccionaris en paper. En la nova web d'Elhuyar Hiztegiak (http://hiztegiak.elhuyar.org/), que compta amb diccionaris basc-castellà, euskara-francès i euskara-anglès, hem volgut anar més enllà i oferir opcions més avançades.

Per exemple, es pot escoltar com es pronuncia una paraula buscada a través de dues opcions: A través dels àudios gravats pels usuaris en la web Forvo, o mitjançant la tecnologia TTS (text-to-speech o síntesi de veu), és a dir, a través de la veu sintètica creada per l'ordinador. El sistema TTS que utilitzem és el desenvolupat pel Grup Consultab de la UPV i que comercialitzem.

A més, quan volem buscar una paraula, a mesura que anem teclejant la paraula, ens mostra la llista de paraules que tenen aquest inici, evitant així haver d'escriure tot i reduint les possibilitats d'escriure erròniament.

D'altra banda, pel que fa als exemples de paraules, a més dels habituals introduïts pels autors en el diccionari, aquesta nova web permet visualitzar els exemples que es troben en el corpus paral·lel basc-castellà extret de la web anteriorment esmentada. Aquests exemples no són només de la llengua de destinació, sinó de parells de frases que són traduccions entre si.

A més, a més de la cerca habitual d'entrades de la llengua d'origen, s'ofereix la possibilitat de buscar-les en les entrades de la llengua de destinació. I es vol oferir la possibilitat de buscar en futurs exemples.

També s'ofereixen opcions per a personalitzar el diccionari, com guardar les últimes cerques realitzades, guardar algunes cerques en una llista de favorits personals, etc.

A pesar que de moment hem publicat aquestes novetats, en el futur està previst introduir més coses a poc a poc. Per exemple, la possibilitat d'anar directament al cercador de combinacions abans esmentat, mostrar també els resultats d'altres diccionaris i corpus, proposar una paraula correcta quan s'ha escrit malament, mostrar les declinacions o inflexions de la paraula buscada…

I més futur!

A més, en els pròxims anys volem tecnologizar encara més la nostra secció de vocabulari. Continuem treballant en la construcció de corpus per a millorar i crear noves eines de construcció automàtica de corpus, amb les quals cada vegada es formen més corpus, més grans i de nous parells de llengües. La nostra intenció és que aquests nous corpus es col·loquin també online en el Portal de Corpus Web.

Però la principal novetat vindrà de l'àmbit de l'automatització del vocabulari. La majoria d'aquesta mena de tecnologies que hem treballat fins ara extreien dels corpus paraules i termes per al diccionari i les seves contraprestacions, però a més un diccionari necessita definicions, sentits i exemples. Doncs bé, ara també hem començat a treballar en la manera d'obtenir-los de manera automàtica, és a dir, en l'extracció automàtica de definicions, accepcions i exemples adequats de textos i/o webs.

Seguint amb l'explotació de les tecnologies lingüístiques que ja teníem i desenvolupant les que acabem de posar en marxa, volem que el diccionari d'Elhuyar sigui capdavanter perquè en un món cada vegada més globalitzat el basc pugui seguir en contacte amb altres llengües.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila