Non te rompas a cabeza, Matxin!

Iñurrieta Urmeneta, Uxoa

EHUko IXA taldeko ikertzailea

Aduriz Agirre, Itziar

EHUko IXA taldeko ikertzailea

Díaz de Ilarraza Sánchez, Arantza

EHUko IXA taldeko ikertzailea

Labaka Intxauspe, Gorka

EHUko IXA taldeko ikertzailea

Sarasola Gabiola, Kepa

EHUko IXA taldeko ikertzailea

ez-burua-hautsi-matxin
Figura . Un exemplo do proceso de tradución de Matxin (01-02-2016).

Paira quen vivimos en sociedades bilingües, son moi habituais os erros cometidos por pensar nunha lingua e falar noutra. Moitos de nós arroibariámonos/arroibariámosnos nalgunha ocasión, por exemplo, cando eramos pequenos vendo risas aos nosos pais, grazas a quen nos deu Non por iso! porque lle respondemos tranquilamente. Fixéchesche dano ao neno que caeu na rúa? Si preguntásese, a maioría dos vascos maiores non nos sorprenderiamos tanto, porque a pesar de que a frase pareza estraña, enseguida pensariamos que esa persoa, probablemente, é un novo euskaldun. E é que os que falamos de máis dunha lingua sabemos, coa experiencia, que o apreso nunha delas non sempre serve paira outra cousa: non por iso non é por iso en castelán, senón de nada; e fixéchesche dano non é unha dor en eúscaro, senón que che fixo dano.

Nestes casos, profesores, pais ou amigos corríxennos os erros para que aprendamos cal é a forma correcta paira a seguinte. Pois aquí tamén falaremos de alumnos e profesores, pero non de calquera tipo. O alumno ten máis de once anos, chámase Matxin e non ten ósos nin carne, é un tradutor automático. Utiliza unha chea de normas paira aprender idiomas e traducir ao eúscaro o lido en castelán, pero moitas veces danlle traducións que quedan fóra desas normas, e o traballo do profesor é axudarlle a que non rompa a cabeza, que non se equivoque con tanta frecuencia.

Matxin, tradutor

Na actualidade, Matxin traduce do castelán ao eúscaro. Baséase nunha serie de normas gramaticales e dous dicionarios bilingües, dos que obtén información paira pasar dun idioma a outro. Desenvolve o seu traballo en tres fases: análise, transferencia e xeración (Maior et ao., 2009).

Como se pode apreciar na figura 1, en primeiro lugar, analiza o texto en castelán, ou en inglés, morfológica e sintácticamente: a lema de cada palabra (por exemplo: vin 8 ver), a categoría (verbo, nome, adverbio...), a función sintáctica (suxeito, obxecto directo, modificador...) e outras características. Posteriormente, na fase de transferencia, compensa as palabras da frase orixinal e axusta a información gramatical. E por último, na fase de creación, crea o texto en eúscaro a partir da información obtida na transferencia: crea a forma correspondente a cada lema (por exemplo: vin con 8) e axusta a orde das palabras.

Con todo, non todas as traducións poden ser traducidas correctamente a través destas normas e dicionarios xerais, o que dá problemas a Matxin. Ver, si non, que frases produce:

(1) É: Eragin handia izan zuen.

EU (Matxin): Forneceu un gran efecto.

EU (correcto): Tivo gran influencia.

Unidades Fraseológicas (UF), fóra das normas gramaticales xenerais de Matxin

De feito, hai algunhas combinacións de palabras que quedan fóra das regras xerais das linguas, entre elas as Unidades Fraseológicas (Gurrutxaga, 2016). Corpas (1997) e Urizar (2011), entre outros, clasificáronos en tres grupos:

1. Enunciados fraseológicos: poden utilizarse como talles sen entrar nunha frase e só en determinadas circunstancias. Deste grupo son moitas grazas e non como por iso..

2. Locuciones: non son frases completas e o significado da combinación non é a suma dos significados das palabras combinadas. O significado das intervencións, por exemplo , non se corresponde co que normalmente teñen as mans e os comisionados.

Figura . Tres Unidades Fraseológicas (UF) coa palabra pescozo, na cinta publicada por Antton Olariaga o 15-01-2016 en Berria.

3. Encolaciones: estas tampouco son frases enteiras, polo menos una das palabras conserva o seu significado e, paira expresar un significado concreto, cunha palabra de combinación utilízase xeralmente outra determinada, e non outras equivalentes. Por exemplo, dedicámonos á atención e non á atención localizada ou similar.

Ademais, as UF varían moito dunha lingua a outra (Sanz, 2015), polo que a miúdo non son fáciles de traducir. Tomemos como exemplo os mencionados na clasificación:

• Como dixemos antes, non por iso usamos nada en castelán e non por iso.

Participar é dicir , tomar parte ou participar (en ningún sitio menciónanse mangos, mans).

Normalmente usamos atención como contraprestación pola atención prestada.

É máis, se traemos este último exemplo ao francés e ao inglés, veremos que os verbos non coinciden nin cos do eúscaro nin cos do castelán: en francés, faire attention (prestar atención); e en inglés, pay attention (prestar atención).

Por tanto, se a súa aprendizaxe é laborioso paira o ser humano, imaxínache o difícil que é traducir automaticamente paira un computador, tendo en conta que os dicionarios nos que se basea son limitados e as regras gramaticales moi xerais.

No dicionario que utiliza Matxin existen varias entradas de varias palabras que ás veces dan lugar a traducións directas:

(2) É: Ikasle batzuk irakasle pilota egin zuten.

EU (Matxin): Algúns alumnos difuminaron ao profesor.

(3) É: 13:00

EU (Matxin): Acabo de facer a pedra.

Lamentablemente, non son moitas as entradas e non sempre se utilizan correctamente. Vexamos, por exemplo, que ocorre si cambiamos lixeiramente os termos dos exemplos 2 e 3:

(4) É: Irakasle ezin zuen ikasle egiten ari ziren pilota.

Figura . Aspecto da interfaz das cóncavas.

EU (Matxin): O profesor non podía crer a pelota que estaban a facer os alumnos.

EU (correcto): O profesor non podía crer como se difuminaban os alumnos.

(5) É: Acabo de fregar o chan.

EU (Matxin): Acabo de facer chan de pedra.

EU (correcto): Acabo de limpar o chan.

Matxin ten dúas dificultades principais: por unha banda, coñecer as UF en castelán ou en inglés, e por outro, traducilas ao eúscaro. Actualmente, só se detectan correctamente as combinacións de palabras que sempre están seguidas e no mesmo orde, polo que se separamos as palabras da combinación ou as cambiamos de orde, trátanse como palabras soltas e non coma se formasen parte dunha UF (Exemplo 4). Así mesmo, paira a creación de frases en eúscaro, a miúdo falta información, xa que a cada entrada concédeselle un único pago no dicionario de Matxin. Por iso é polo que a frase do exemplo 5 sexa erroneamente traducida, xa que non se tivo en conta que ao verbo fregar, cando o chan vai acompañado do sintagma nominal, limparlle que lle corresponde o pago e non o de pedra.

Konbitzul, novo profesor de Matxin

Por tanto, como pon de manifesto os exemplos até agora, se Matxin vai traducir correctamente os UF, a axuda é fundamental, e paira iso creouse Konbitzul, a ferramenta que lle vai a ensinar a traducir combinacións de nomes+verbos.

Konbitzul é una base de datos pública que recolle a información obtida dunha análise lingüística. Contén datos sobre as características das combinacións de palabras con nomes e verbos, e as súas contraprestacións, até o momento no par de idiomas español-eúscaro. As combinacións nominal+verbais deste estudo agrupáronse en tres fontes: O dicionario bilingüe Elhuyar, os xigantescos conxuntos de traducións a man e o dicionario DI de encolaciones en castelán (Alonso, 2004).

A maior parte da información traballada está dispoñible en Internet e o que falta tamén estará a disposición dos usuarios en breve. De feito, a interfaz da base de datos é de tipo buscador e calquera usuario pode realizar procuras facilmente, escribindo o que se desexa buscar e mostrando una lista de combinacións que coinciden co escrito, xunto cos pagos. A continuación, se se clica en compensación, pódese ver máis información lingüística (figura 3).

Con todo, como xa se comentou anteriormente, a principal tarefa de Konbitzul é axudar a Matxin a afrontar dous retos: por unha banda, coñecer as UF da lingua de orixe e por outro, traducir ao eúscaro. Supoñamos que lle dan as seguintes frases:

(6) O tema espertou interese nos oíntes.

(7) Interes handia egin zuen gaia oíntes.

Figura . Interfaz de Matxin e un exemplo (02-02-2016).

-

A UF –espertar interese– que aparece nestes tres exemplos aínda non está no dicionario de Matxin, polo que actualmente non trata esta combinación de palabras como UF (Figura 4). Con todo, aínda que estivese no dicionario de Matxin, co método que utilizou até agora, só o recoñecería no exemplo 6, onde as dúas palabras aparecen no mesmo orde e sen outros elementos.

Con todo, coa axuda de Konbitzul saberá que espertar interese é una UF e que ademais é una combinación flexible, é dicir:

• Que entre os dous compoñentes da combinación poden aparecer outras palabras.

• A orde das palabras é variable.

Así, ao analizar a frase da lingua de orixe, terase en conta toda esta información e será capaz de saber que nos exemplos 7 e 8 tamén hai una UF. Un experimento demostra que grazas á información da base de datos coñécense case un 30% máis de UF que co método anterior.

Doutra banda, una vez que se detectaron as combinacións, hai que traelas ao eúscaro e paira iso Matxin tamén necesitará información adicional. Una vez máis, Konbitzule resolverá as súas dúbidas:

Polo verbo espertar, acender (e non espertar).

Polo nome de interese, utilízao e pono en limitado.

Así, en lugar de crear frases como a que espertou un gran interese, poderá crear frases como a que espertou o Gran Interese. A información paira esta segunda tarefa aínda non se integrou no sistema, pero se realizou a análise lingüística, polo que é lóxico pensar que en breve poderemos ver os resultados na rede.

Enchendo o saco paira satisfacer a curiosidade

Con todo, o traballo non termina aí, claro, porque Matxin é un estudante de gran curiosidade. O seguinte paso será recompilar información paira traducir as UF en inglés, e a partir de aí Konbitzule deberá seguir recompilando datos paira ir enchendo o saco de forma progresiva, de forma que o alumno, a medida que vaia crecendo, sexa cada vez mellor tradutor.

Bibliografía

Corpas, G.: Manual de fraseología española. Editorial Gredos (1997).
Gurrutxaga, A.; Alegria, I. & Artola, X.: “Caracterización automática da idiomaticidad: combinacións nomee+ verbo”. Revista de Ciencia e Tecnoloxía da Universidade do País Vasco (2016).
Maior, A.; Alegría, I.; Díaz de Ilraza, A.; Lava, G.; Lersundi, M. & Sarasola, K.: “Matxin, primeiro tradutor automático ao eúscaro”. Senez: revista de tradución 37 (2009), 197-220.
Sanz, Z. (2015): “Estudo de tradución de unidades fraseológicas traducidas do alemán ao eúscaro. Descrición da tese”. Senez: revista de tradución 46 (2009), 211-230.
Urizar, R.; Alegría, I.; Odriozola, J. C. & Ezeiza, N.: “Tratamento computacional de unidades lexicales plurilingües en eúscaro”. Anuario do Seminario de Filoloxía Vasca ”Xullo de Urquijo”, 43(1-2) (2011), 891-908.