OpenTrad, fronte á Torre de Babel

Galarraga Aiestaran, Ana

Elhuyar Zientzia

O eúscaro, o catalán, o castelán e o galego, catro linguas que conflúen nun sistema: Sistema de tradución automática OpenTrad. Permite a tradución automática de textos e páxinas web do castelán ao eúscaro, galego e catalán, así como a tradución de textos en galego e catalán ao castelán. Ademais, desenvolveron o sistema en código aberto. Paira entendernos sen obstáculos.
OpenTrad, fronte á Torre de Babel
01/04/2006 | Galarraga Aiestaran, Ana | Elhuyar Zientzia Komunikazioa
(Foto: A. Galarraga)

O Xornal de Catalunya publícase diariamente en dous idiomas: castelán e catalán. Paira iso, non teñen o dobre de empregados ou non dedican o dobre de horas ao traballo que outros xornais. O seu segredo é un tradutor automático. Os xornalistas escriben o xornal en castelán e, a continuación, o tradutor automático colócao en catalán. Dirixen o texto entre varios correctores e está disposto a saír á rúa xunto co de castelán.

O Xornal de Catalunya é un exemplo significativo da posta en valor dos tradutores automáticos. Ademais, o tradutor que ten o xornal non é o único tradutor do castelán ao catalán, senón outros moitos exemplos. Por exemplo, a Universidade de Alacante creou interNOSTRUM paira a Caixa de Aforros do Mediterráneo. A tradución realízase en dúas direccións e agora permite a calquera persoa usala gratuitamente na web do mesmo nome. Iso si, admite textos de até 16.384 caracteres.

Ademais, no estado español hai un tradutor automático de galego a castelán, pero é un produto moi pechado e limitado. E en eúscaro, que? Até agora pouco. O grupo IXA da Facultade de Informática da UPV/EHU estaba a desenvolver un sistema automático de tradución do inglés ao eúscaro, pero non avanzaban tan rápido como querían.

Esa era a situación fai dúas ou tres anos. Con todo, en 2004 púxose en marcha o proxecto de desenvolvemento da OpenTrad. De feito, os investigadores que desenvolveron interNOSTRUM eran coñecidos pola IXA, e Eleka Enxeñaría Lingüística e IXA traballan xuntos. Uníronse a traballos similares en Galicia e comezaron a crear un tradutor automático de código aberto grazas á subvención do Ministerio de Industria, Turismo e Comercio.

Segundo Eleka, Iñaki Arantzabal definiu desde o principio obxectivos a dous niveis: "por unha banda, queriamos conseguir un bo tradutor automático, rápido e de código aberto paira as parellas galego-español e catalano-español e, por outro, un prototipo paira traducir do castelán ao eúscaro. Hai que ter en conta que o punto de partida de todas as linguas non era o mesmo: o parella castelán-catalán estaba bastante avanzada e, no outro extremo, paira traducir automaticamente do castelán ao eúscaro, case todo estaba por facer".

Próximos por superficie

Niso, loxicamente, inflúe moito a diferenza entre as linguas. É evidente que o castelán, o galego e o catalán atópanse moito máis cerca entre si que de calquera deles. En consecuencia, é moito máis fácil conseguir un bo sistema de tradución entre as linguas románicas que cando o eúscaro está presente.

Como se observa nestes exemplos, os tradutores automáticos non só serven paira traducir textos senón tamén paira navegar no idioma elixido.

Por iso, OpenTrad conta con dous motores de tradución automática, un paira traducións entre linguas románicas, Apertium, e outro paira traducir do castelán ao eúscaro, Matxin.

Ambas se basean nas regras da linguaxe. Existen varias formas de tradución automática, pero as principais son as que se basean en coleccións de textos previamente traducidos, é dicir, corpus, e as baseadas en regras lingüísticas --orde de palabras na frase, declinación, verbos...--.

Iñaki Alegría, de IXA, explicou que "os sistemas baseados en regras lingüísticas traballan en tres fases. Primeiro realizan unha análise sintáctico-morfológico do texto orixinal, logo realizan una transferencia ao outro idioma e, finalmente, crean o texto nesa segunda lingua".

Paira a tradución entre linguas románicas, aínda que a transferencia é superficial, obtéñense bos resultados. Isto é o que fai InterNOSTRUM e de aí partiron paira desenvolver o motor Apertium. En certo xeito, Apertium interNOSTRUM é una versión mellorada en código aberto.

Iso é o que gañaron sobre todo os cataláns, que o código sexa aberto. Ademais, OpenTrad ten o código totalmente separado dos recursos lingüísticos. Grazas a iso, o sistema ofrece todas as facilidades paira a interacción e a adaptación ás necesidades do usuario. O sistema está disposto a asumir todos os cambios que se queiran realizar paira enriquecer e mellorar.

Apertium non só realiza a transferencia sintáctica. Ademais, ten varios 'filtros' paira afinar a tradución. Por exemplo, é capaz de detectar estruturas propias dunha lingua e darlles o seu equivalente na outra. En consecuencia, conséguese una tradución de maior calidade. Por exemplo, o tradutor do dúo español-catalán ten una fiabilidade do 95%, é dicir, só cinco de cada cen palabras traducidas son erróneas.

Afastados en profundidade

Con todo, Apertium non serve paira traducir do castelán ao eúscaro. As linguas son tan diferentes que a transferencia sintáctica superficial non é suficiente. A estrutura das frases tamén cambia radicalmente, polo que se necesita un motor de análise sintáctico-morfológico profundo capaz de construír unha árbore de dependencias, realizar una transferencia e producir o texto en eúscaro. Paira iso crearon Matxin.

A IXA recoñeceu que paira desenvolver Matxin tiveron que facer un "duro traballo", e o resultado non é tan bo como o que ofrece Apertium na tradución entre as linguas románicas. En calquera caso, conseguiron o obxectivo marcado inicialmente, xa que se trataba de crear infraestrutura.

Análise, transferencia e xeración.
Grupo IXA
Doutra banda, a calidade da tradución no desenvolvemento do tradutor automático foi una das principais preocupacións, pero tamén se ocupou da velocidade do sistema. Neste sentido, recoñeceron a súa satisfacción. Isto permite percorrer as páxinas web no idioma traducido. Segundo un exemplo de Arantzabal, sendo o orixinal o castelán, existe a posibilidade de navegar en gipuzkoa.net en catalán e galego a través de OpenTrad.

Mirando cara adiante

Até o momento, conseguiuse un bo e rápido sistema automático que traduce en ambos os sentidos paira as parellas galego-español e catalano-español, así como un prototipo paira traducir do castelán ao eúscaro. En palabras do responsable de Eleka, "conseguimos o obxectivo".

Pero non teñen intención de quedar aí. "Queremos seguir mellorando e completando. Una forma de mellorar os resultados é centrarse en ámbitos concretos. En cada ámbito utilízase unha linguaxe propia, con menos problemas de ambigüidade que actuando en xeral. Por tanto, a calidade aumenta adaptando ao tradutor a un campo, por exemplo, incorporando o vocabulario terminolóxico correspondente". Con todo iso, esperan mellorar a súa fiabilidade.

Ademais, pretenden engadir outros á tecnoloxía por regra, en concreto, queren utilizar corpus paralelos. "Deste xeito, se se quere traducir una frase, primeiro observará se a mesma xa está traducida ou si hai algo parecido. Se hai algo anterior, partirase de aí paira traducir. En cambio, se non hai nada similar, utilizará tecnoloxía de regra".

Os resultados son mellores se o tradutor adáptase a unha área. De feito, en cada ámbito utilízase unha linguaxe propia e non son tantos problemas de ambigüidade.
A. Galarraga

Ademais de mellorar e complementar, queren crear un tradutor automático paira traducir do eúscaro ao castelán. Grazas a iso, os externos terían a oportunidade de coñecer o que se crea en eúscaro. Outro dos obxectivos a futuro é poder traducir do inglés ao eúscaro.

Paira dar estes avances, Arantzazu espera contar co apoio do Goberno Vasco. De feito, hai uns anos o Goberno Vasco encargou a unha empresa catalá o desenvolvemento dun prototipo de tradución automática. Agora, OpenTrad é o sistema máis avanzado do Estado. Por iso di Arantzazu: "queremos convencer ao Goberno Vasco paira impulsar o noso sistema. Creemos que polo menos non se pode quedar fóra".

· http://www.opentrad.net

· http://apertium.sourceforge.net

· http://matxin.sourceforge.net

Servizos
Participantes e repartición de tarefas e responsabilidades
Eleka Ingeniaritza Linguistikoa, S.L. : coordinador e responsable da integración de todos os sistemas.
Grupo Transducens da Universidade de Alacante: Desenvolvemento do motor Apertium.
Grupo IXA da UPV: Desenvolvemento motor Matxin.
Universidade Politécnica de Cataluña: análise do castelán e recursos lingüísticos do catalán.
Universidade de Vigo: recursos lingüísticos do galego.
Imaxin Software empresa: verificación do apartado galego.
Elhuyar Fundazioa: acreditación da sección de eúscaro e recursos lingüísticos en eúscaro.
Iñaki Alegría, coordinador do grupo IXA: "O maior problema é a ambigüidade"
O grupo IXA da Facultade de Informática da UPV/EHU foi o encargado de desenvolver o motor de tradución do castelán ao eúscaro. En consecuencia, saben perfectamente cales son as principais dificultades.
Iñaki, tocouvos o traballo máis complicado?
A verdade é que non é fácil, sobre todo en comparación coa tradución entre as linguas románicas. Os cataláns estaban máis avanzados que nós nesta materia. Tiñan una base sólida e, ademais, teñen suficiente transferencia superficial porque están a traducir entre linguas emparentadas.
O noso caso é moi diferente. A verdade é que nós tampouco partimos de cero, levamos anos investigando e traballando este tema e ademais baseámonos en FreeLing.
Que é o FreeLing?
(Foto: R. Carton)
FreeLing é un analizador paira o castelán creado pola Universidade Politécnica de Cataluña. Este analizador realiza toda a árbore sintáctico, xa que non é suficiente unha análise superficial paira traducir o eúscaro. A orde dos elementos dentro da frase é moi diferente, polo que ten que facer toda a árbore paira logo realizar a transferencia e construír a frase correctamente en eúscaro.
Ademais da sintaxe ou a costura, a dor de cabeza tamén vos dará o léxico...
Claro. As outras linguas son similares, pero entre o eúscaro e o castelán hai moitas máis acepcións ambiguas. Una palabra en castelán pode ter dous ou máis acepcións en eúscaro, e o problema é que hai que seleccionala. Existe, pois, una dificultade léxico-semántica. E logo está a dificultade morfológica, é dicir, das preposicións en castelán hai que elixir o caso en eúscaro.
É posible dar un exemplo?
Póñoche o exemplo de sempre: zapatos de pel de señora . De quen é a pel? Paira una máquina, o coiro pode ser feminino, é un problema sintáctico. Ademais, de onde, onde, onde, quen, a aposición? É ambiguo ao caso do eúscaro. Á parte disto, pel pode ser coiro ou pel, e se a máquina escolle a pel está mal.
Estes son os principais problemas. Entre as linguas emparentadas, estes problemas son moito máis lixeiros, pero a nós dannos moito traballo. Aínda estamos a traballar paira solucionar estes e outros problemas, pero polo menos creamos a base e temos a intención e o desexo de seguir adiante.
Galarraga de Aiestaran, Ana
Servizos
218
2006
Seguridade
023
Software
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila