Opentrad, enfront de la Torre de Babel

Galarraga Aiestaran, Ana

Elhuyar Zientzia

El basc, el català, el castellà i el gallec, quatre llengües que conflueixen en un sistema: Sistema de traducció automàtica Opentrad. Permet la traducció automàtica de textos i pàgines web del castellà al basc, gallec i català, així com la traducció de textos en gallec i català al castellà. A més, han desenvolupat el sistema en codi obert. Per a entendre'ns sense obstacles.
Opentrad, enfront de la Torre de Babel
01/04/2006 | Galarraga Aiestaran, Ana | Elhuyar Zientzia Komunikazioa
(Foto: A. Galarraga)

El Periódico de Catalunya es publica diàriament en dos idiomes: castellà i català. Per a això, no tenen el doble d'empleats o no dediquen el doble d'hores al treball que altres periòdics. El seu secret és un traductor automàtic. Els periodistes escriuen el periòdic en castellà i, a continuació, el traductor automàtic el col·loca en català. Dirigeixen el text entre diversos correctors i està disposat a sortir al carrer juntament amb el de castellà.

El Periódico de Catalunya és un exemple significatiu de la posada en valor dels traductors automàtics. A més, el traductor que té el periòdic no és l'únic traductor del castellà al català, sinó molts altres exemples. Per exemple, la Universitat d'Alacant va crear interNOSTRUM per a la Caixa d'Estalvis del Mediterrani. La traducció es realitza en dues adreces i ara permet a qualsevol persona usar-la gratuïtament en la web del mateix nom. Això sí, admet textos de fins a 16.384 caràcters.

A més, en l'estat espanyol hi ha un traductor automàtic de gallec a castellà, però és un producte molt tancat i limitat. I en basc, què? Fins ara poc. El grup IXA de la Facultat d'Informàtica de la UPV/EHU estava desenvolupant un sistema automàtic de traducció de l'anglès al basc, però no avançaven tan ràpid com volien.

Aquesta era la situació fa dos o tres anys. No obstant això, en 2004 es va posar en marxa el projecte de desenvolupament de l'Opentrad. De fet, els investigadors que van desenvolupar interNOSTRUM eren coneguts per la IXA, i Eleka Enginyeria Lingüística i IXA treballen junts. Es van unir a treballs similars a Galícia i van començar a crear un traductor automàtic de codi obert gràcies a la subvenció del Ministeri d'Indústria, Turisme i Comerç.

Segons Eleka, Iñaki Arantzabal va definir des del principi objectius a dos nivells: "d'una banda, volíem aconseguir un bon traductor automàtic, ràpid i de codi obert per a les parelles galego-espanyol i catalano-espanyol i, per un altre, un prototip per a traduir del castellà al basc. Cal tenir en compte que el punt de partida de totes les llengües no era el mateix: la parella castellà-català estava bastant avançada i, en l'altre extrem, per a traduir automàticament del castellà al basc, gairebé tot estava per fer".

Pròxims per superfície

En això, lògicament, influeix molt la diferència entre les llengües. És evident que el castellà, el gallec i el català es troben molt més a prop entre sí que de qualsevol d'ells. En conseqüència, és molt més fàcil aconseguir un bon sistema de traducció entre les llengües romàniques que quan el basc està present.

Com s'observa en aquests exemples, els traductors automàtics no sols serveixen per a traduir textos sinó també per a navegar en l'idioma triat.

Per això, Opentrad compta amb dos motors de traducció automàtica, un per a traduccions entre llengües romàniques, Apertium, i un altre per a traduir del castellà al basc, Matxin.

Ambdues es basen en les regles del llenguatge. Existeixen diverses formes de traducció automàtica, però les principals són les que es basen en col·leccions de textos prèviament traduïts, és a dir, corpus, i les basades en regles lingüístiques --ordre de paraules en la frase, declinació, verbs...--.

Iñaki Alegría, d'IXA, ha explicat que "els sistemes basats en regles lingüístiques treballen en tres fases. Primer realitzen una anàlisi sintàctica-morfològica del text original, després realitzen una transferència a l'altre idioma i, finalment, creen el text en aquesta segona llengua".

Per a la traducció entre llengües romàniques, encara que la transferència és superficial, s'obtenen bons resultats. Això és el que fa InterNOSTRUM i d'aquí han partit per a desenvolupar el motor Apertium. En certa manera, Apertium interNOSTRUM és una versió millorada en codi obert.

Això és el que han guanyat sobretot els catalans, que el codi sigui obert. A més, Opentrad té el codi totalment separat dels recursos lingüístics. Gràcies a això, el sistema ofereix totes les facilitats per a la interacció i l'adaptació a les necessitats de l'usuari. El sistema està disposat a assumir tots els canvis que es vulguin realitzar per a enriquir i millorar.

Apertium no sols realitza la transferència sintàctica. A més, té diversos 'filtres' per a afinar la traducció. Per exemple, és capaç de detectar estructures pròpies d'una llengua i donar-los el seu equivalent en l'altra. En conseqüència, s'aconsegueix una traducció de major qualitat. Per exemple, el traductor del duo espanyol-català té una fiabilitat del 95%, és a dir, només cinc de cada cent paraules traduïdes són errònies.

Llunyans en profunditat

No obstant això, Apertium no serveix per a traduir del castellà al basc. Les llengües són tan diferents que la transferència sintàctica superficial no és suficient. L'estructura de les frases també canvia radicalment, per la qual cosa es necessita un motor d'anàlisi sintàctica-morfològica profund capaç de construir un arbre de dependències, realitzar una transferència i produir el text en basc. Per a això han creat Matxin.

La IXA ha reconegut que per a desenvolupar Matxin han hagut de fer un "dur treball", i el resultat no és tan bo com el que ofereix Apertium en la traducció entre les llengües romàniques. En qualsevol cas, han aconseguit l'objectiu marcat inicialment, ja que es tractava de crear infraestructura.

Anàlisi, transferència i generació.
Grup IXA
D'altra banda, la qualitat de la traducció en el desenvolupament del traductor automàtic ha estat una de les principals preocupacions, però també s'ha ocupat de la velocitat del sistema. En aquest sentit, han reconegut la seva satisfacció. Això permet recórrer les pàgines web en l'idioma traduït. Segons un exemple d'Arantzabal, sent l'original el castellà, existeix la possibilitat de navegar en gipuzkoa.net en català i gallec a través d'Opentrad.

Mirant cap endavant

Fins al moment, s'ha aconseguit un bon i ràpid sistema automàtic que tradueix en tots dos sentits per a les parelles galego-espanyol i catalano-espanyol, així com un prototip per a traduir del castellà al basc. En paraules del responsable d'Eleka, "hem aconseguit l'objectiu".

Però no tenen intenció de quedar-se aquí. "Volem continuar millorant i completant. Una manera de millorar els resultats és centrar-se en àmbits concrets. En cada àmbit s'utilitza un llenguatge propi, amb menys problemes d'ambigüitat que actuant en general. Per tant, la qualitat augmenta adaptant al traductor a un camp, per exemple, incorporant el vocabulari terminològic corresponent". Amb tot això, esperen millorar la seva fiabilitat.

A més, pretenen afegir uns altres a la tecnologia per regla, en concret, volen utilitzar corpus paral·lels. "D'aquesta manera, si es vol traduir una frase, primer observarà si la mateixa ja està traduïda o si hi ha una cosa semblant. Si hi ha una cosa anterior, es partirà d'aquí per a traduir. En canvi, si no hi ha res similar, utilitzarà tecnologia de regla".

Els resultats són millors si el traductor s'adapta a una àrea. De fet, en cada àmbit s'utilitza un llenguatge propi i no són tants problemes d'ambigüitat.
A. Galarraga

A més de millorar i complementar, volen crear un traductor automàtic per a traduir del basc al castellà. Gràcies a això, els externs tindrien l'oportunitat de conèixer el que es crea en basca. Un altre dels objectius a futur és poder traduir de l'anglès al basc.

Per a donar aquests avanços, Arantzazu espera comptar amb el suport del Govern Basc. De fet, fa uns anys el Govern Basc va encarregar a una empresa catalana el desenvolupament d'un prototip de traducció automàtica. Ara, Opentrad és el sistema més avançat de l'Estat. Per això diu Arantzazu: "volem convèncer al Govern Basc per a impulsar el nostre sistema. Creiem que almenys no es pot quedar fora".

· http://www.opentrad.net

· http://apertium.sourceforge.net

· http://matxin.sourceforge.net

Serveis
Participants i repartiment de tasques i responsabilitats
Eleka Ingeniaritza Linguistikoa, S.L. : coordinador i responsable de la integració de tots els sistemes.
Grup Transducens de la Universitat d'Alacant: Desenvolupament del motor Apertium.
Grup IXA de la UPV: Desenvolupament motor Matxin.
Universitat Politècnica de Catalunya: anàlisi del castellà i recursos lingüístics del català.
Universitat de Vigo: recursos lingüístics del gallec.
Imaxin Programari empresa: verificació de l'apartat gallec.
Elhuyar Fundazioa: acreditació de la secció de basca i recursos lingüístics en basc.
Iñaki Alegría, coordinador del grup IXA: "El major problema és l'ambigüitat"
El grup IXA de la Facultat d'Informàtica de la UPV/EHU ha estat l'encarregat de desenvolupar el motor de traducció del castellà al basc. En conseqüència, saben perfectament quines són les principals dificultats.
Iñaki, us ha tocat el treball més complicat?
La veritat és que no és fàcil, sobretot en comparació amb la traducció entre les llengües romàniques. Els catalans estaven més avançats que nosaltres en aquesta matèria. Tenien una base sòlida i, a més, tenen suficient transferència superficial perquè estan traduint entre llengües emparentades.
El nostre cas és molt diferent. La veritat és que nosaltres tampoc hem partit de zero, portem anys investigant i treballant aquest tema i a més ens hem basat en FreeLing.
Què és el FreeLing?
(Foto: R. Carton)
FreeLing és un analitzador per al castellà creat per la Universitat Politècnica de Catalunya. Aquest analitzador realitza tot l'arbre sintàctic, ja que no és suficient una anàlisi superficial per a traduir el basc. L'ordre dels elements dins de la frase és molt diferent, per la qual cosa ha de fer tot l'arbre per a després realitzar la transferència i construir la frase correctament en basca.
A més de la sintaxi o la costura, el mal de cap també us donarà el lèxic...
Clar. Les altres llengües són similars, però entre el basc i el castellà hi ha moltes més accepcions ambigües. Una paraula en castellà pot tenir dos o més accepcions en basca, i el problema és que cal seleccionar-la. Existeix, doncs, una dificultat lèxic-semàntica. I després està la dificultat morfològica, és a dir, de les preposicions en castellà cal triar el cas en basc.
És possible donar un exemple?
Et poso l'exemple de sempre: sabates de pell de senyora . De qui és la pell? Per a una màquina, el cuir pot ser femení, és un problema sintàctic. A més, d'on, on, on, qui, l'aposició? És ambigu al cas del basc. A part d'això, pell pot ser cuir o pell, i si la màquina tria la pell està malament.
Aquests són els principals problemes. Entre les llengües emparentades, aquests problemes són molt més lleugers, però a nosaltres ens donen molta feina. Encara estem treballant per a solucionar aquests i altres problemes, però almenys hem creat la base i tenim la intenció i el desig de seguir endavant.
Galarraga d'Aiestaran, Ana
Serveis
218
2006
Seguretat
023
Programari
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila