Una mirada á evolución dos sistemas de tradución automática

Cortés Etxabe, Itziar

Elhuyarreko itzulpengintza-teknologien arduraduna

begirada-bat-itzulpen-automatikoko-sistemen-bilaka 400

A tradución automática é una tecnoloxía coñecida. Cando navegamos por Internet utilizámolo con frecuencia paira comprender textos escritos en linguas estranxeiras, ou por que non, ou como axuda paira traducir.

Os servizos que atopamos en Internet son moi variados, a maioría gratuítos, e aínda que aparentemente parecen iguais, poden ser ferramentas baseadas en diferentes tecnoloxías ou se foron adaptando ao longo do tempo, e este cambio foi transparente paira os usuarios. Paira pór en marcha un sistema de tradución automática existen, por tanto, varias opcións: os sistemas baseados en regras (RBMT) requiren de recursos ou coñecementos lingüísticos; os baseados na estatística (SMT) necesitan coleccións de textos xa traducidos, e con certa capacidade de aprender a traducir mediante técnicas estatísticas; e por último, os sistemas NMT ou baseados en redes neuronais, que foron moi coñecidos nos últimos tempos.

Os sistemas baseados en redes neuronais imitan o funcionamento do cerebro humano e xorden de grandes coleccións de información, pero son máis complexos que os sistemas baseados na estatística. Esta tecnoloxía baséase nun modelo matemático (dentro do deep learning) que trata de imitar o funcionamento das neuronas do cerebro e que, a pesar de pasar varios anos desde o seu coñecemento, está a adquirir forza. De feito, a posta en marcha deste tipo de sistemas require, ademais de grandes recompilacións de datos, dispositivos de alta capacidade de computación, e cos computadores e cartóns gráficos que temos na actualidade conseguiuse crear este tipo de sistemas de forma eficiente.

Os sistemas de tradución automática foron evolucionando ao longo do tempo e Google é un exemplo diso: sen que os usuarios déanse conta, fóronse adaptando a novos modelos e algúns dos tradutores que usamos xa están baseados en redes neuronais. Pero non pensemos que esta tecnoloxía só está en mans dos xigantes de Internet, estamos a investigar neste campo e traballamos co eúscaro. De momento estamos a realizar experimentos de investigación, pero os primeiros resultados obtidos son esperanzadores. O obxectivo é pór en marcha en breve un sistema baseado en redes neuronais que traducen ao eúscaro.

Páxina web consumer.eus, bilingüe

Matxin (http://matxin.elhuyar.eus) é pioneira en traducir do castelán ao eúscaro. Trátase dun sistema de tradución automática xurdido dunha tese doutoral en 2007 (Aingeru Maior Martínez, UPV/EHU), o primeiro tradutor automático ao eúscaro, e desde entón estase adaptando progresivamente aos novos tempos nunha era dixital tan importante como as tecnoloxías lingüísticas. Baséase nas regras, polo que ten un coñecemento de recursos lingüísticos que lle permite traducir. En concreto, ten o coñecemento necesario paira comprender textos en castelán e, dalgunha maneira, traducilos ao eúscaro. Paira iso utiliza dicionarios e regras sintácticas, entre outros.

Nos últimos tres anos estamos a traballar no proxecto Consumer.eus Fundación Eroski, o equipo de investigación da UPV Ixa e Elhuyar. Os contidos que até agora só se podían ler en castelán tradúcense automaticamente ao eúscaro e utilízase Matxin paira realizar este traballo; é un tradutor sólido, baseado en software libre, que permite adaptar facilmente os recursos lingüísticos e, tras a súa aplicación, percíbese no mesmo momento a mellora dos resultados. Paira traducir os contidos da web consumer.eus centrámonos no ámbito da alimentación, adaptando os recursos lingüísticos que utiliza o tradutor automático. O efecto das adaptacións realizadas constatouse de forma inmediata: a adecuación dos recursos foi acompañada dunha mellora da calidade do sistema nos textos sobre alimentación.

Con todo, é evidente que a calidade das traducións xeradas automaticamente non sempre é esperada, ou polo menos non é directamente editable. Por iso, en leste mesmo proxecto ofrécese ao lector a posibilidade de adaptar as traducións, podendo participar calquera persoa. Consumer.eus permite corrixir artigos e receitas en eúscaro e consérvase o traballo realizado. Paira que? Mellorar o tradutor cos datos recolleitos. Coa información recibida e a aprendizaxe automática porase en marcha un novo sistema de tradución automática especializado na tradución de textos alimentarios.

Retos da tradución automática

Avanzar nos sistemas de tradución automática é un reto enorme e o camiño paira mellorar a calidade dos resultados está cheo de experimentos: cando empezamos a traballar con sistemas baseados en regras, o traballo manual dos lingüistas era imprescindible. O lingüista tiña que coñecer as linguas de orixe e de destino do tradutor e crear regras paira facer unha ponte interlingüístico (a nivel morfológico e sintáctico, por exemplo). Empezar de cero un sistema destas características é, por tanto, una tarefa inmensa. Con todo, a creación de sistemas baseados na estatística ou a aprendizaxe automática non require necesariamente de coñecementos lingüísticos (polo menos paira crear un modelo sinxelo).

Nos últimos anos escoitamos con frecuencia o concepto de Big Data, que se utiliza paira referirnos aos inmensos conxuntos de datos dispoñibles. Deles extráese información e, no seu caso, realízase o correspondente estudo. As técnicas de estudo mencionadas neste artigo non se aplican unicamente á tradución automática, senón que o concepto de Big Data utilízase tamén paira outros procesos de aprendizaxe ou estudo. Parece, pois, que é fácil crear sistemas de tradución cando temos datos dispoñibles, pero neste caso tamén atopamos limitacións.

A preparación de conxuntos de datos paira aprendizaxe automática ou profunda (machine learning, deep learning) non adoita ser a miúdo fácil. Debemos ter en conta que a creación de modelos matemáticos require dun conxunto de frases xa traducidas: as traducións deben ser de calidade e o conxunto de datos debe ser grande. En teoría, canto maior sexa o número de datos utilizados paira crear o sistema, mellor será o resultado do tradutor.

Con todo, parece que se chegou á cima cos sistemas baseados na estatística: aínda que o conxunto de datos utilizados paira a aprendizaxe amplíese, o resultado do tradutor non mellora na mesma proporción. Por iso estamos a investigar en sistemas baseados en redes neuronais paira superar esta barreira e avanzar no campo da tradución automática.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila