Metall. Sistema de traducció per ordinador de Siemens

Sagarna, Andoni

Ingeniaria

L'empresa alemanya Siemens és el gran fabricant de tot el relacionat amb l'electricitat. Aquesta activitat va impulsar, després de deu anys de recerca, la decisió de desenvolupar METALL, el sistema de traducció per ordinador més avançat actualment en el mercat.

Historial de producte

Com és sabut, l'empresa alemanya Siemens és el gran fabricant de tot el relacionat amb l'electricitat. També fabrica centrals telefòniques. Aquesta activitat va impulsar, després de deu anys de recerca, la decisió de desenvolupar METALL, el sistema de traducció per ordinador més avançat actualment en el mercat. De fet, les 100.000 pàgines que componien la documentació d'un sistema de telefonia no podien tornar de l'alemany a l'anglès dins d'uns terminis i costos raonables. Per què no, llavors, respondre desenvolupant un producte? I per què no partir d'un desenvolupament que ja havia començat?

Així ho van fer, van adquirir el METALL (Machine Edited Text Aspiring Legibility) que s'estava preparant en la Universitat de Texas. Deu anys després, aquest sistema és capaç de tornar de l'alemany a l'anglès.

Abans del seu llançament, han provat bé el funcionament de METALL, primer en la seu de Munic de Siemens des de 1986, després en les oficines de traducció de Comex i Schönau und Damels de Zürich, després en Philips Kommunikations-Industre de Nuremberg, Universitat de Villingen, Mannesmann Kiense i Hille.

Encara que fins avui METALL només ofereix la possibilitat de tornar de l'alemany a l'anglès, les versions de traduccions de l'alemany a l'espanyol i de l'anglès a l'alemany es podran començar a provar aquesta primavera.

Procediment de treball

METALL és més que una eina de traducció. Es pot definir com un paquet integrat de traduccions tècniques repetitives de gran massa de text. Aquest programari requereix dos ordinadors: Un ordinador SINIX del mitjà Siemens que treballa amb el sistema operatiu Unix per a treballar el format del text i una màquina LISP amb la gramàtica i el vocabulari necessari per a realitzar la traducció. Totes dues màquines s'uneixen mitjançant una xarxa Ethernet. L'usuari treballa en un PC connectat com a terminal de l'ordinador SINIX.

Aquest terminal inclou el text font, bé des d'un disc, per lectura òptica i un OCR (programa de reconeixement de caràcters). Des del terminal s'envia a SINIX el text per a la seva traducció. Una vegada finalitzada la formació s'envia a la màquina LISP per a la seva devolució i una vegada finalitzat aquest treball es passa a SINIX per a realitzar la postedició. L'ampliació del nou lèxic i els ajustos gramaticals que es realitzen en la traducció automàtica es realitzen en la pantalla de la màquina LISP.

És evident que l'objectiu de METALL no és només traduir, sinó que també respon a problemes d'introducció i formato del document. Per això, gràfics, taules, tipus de lletra, etc. del document original. respecta. Si això es pot fer de manera rígida, el problema seria senzill, però com qualsevol traductor sap, en tornar canvien la longitud i l'ordre de les paraules.

Per a superar aquesta objecció, METALL divideix primer el format i el text. METALL suporta el text elaborat en processadors de textos com Word Star o Word Perfecte.

Una vegada dividit el format i el text, el text es divideix en frases curtes i s'envia a la màquina LISP per a la seva traducció.

Aquesta màquina, en primer lloc, cerca en el text paraules desconegudes, que no tenen en el diccionari, i una vegada llistades aquestes, l'usuari ha de codificar les noves entrades lèxiques segons uns criteris lingüístics, utilitzant el sistema de finestres auxiliar que li ofereix el programa.

L'anàlisi preliminar mostra les aparicions de les noves paraules i els seus contextos. D'aquesta manera, l'usuari pot veure en breu l'ús d'aquestes paraules. Per cert, també és una via per a detectar els escrits erronis, ja que les paraules mal escrites normalment tindran una forma desconeguda.

METALL utilitza tres diccionaris bàsics. Compta amb dos diccionaris monolingües, cadascun de 50.000 entrades, un en alemany i un altre en anglès, i un diccionari d'equivalències entre paraules de totes dues llengües. Aquests diccionaris estan jerarquitzats: els morfemes gramaticals sobre ells, el vocabulari comú baix ells i el vocabulari tècnic general més a baix. A més, existeixen diccionaris tècnics (informàtica, telecomunicacions, medicina, etc.) organitzat per mòduls.

L'anàlisi preliminar esmentada crea una sèrie de fitxers de glossaris que informen sobre la devolució de cada terme a través de diferents diccionaris tècnics especialitzats.

També existeix un fitxer de paraules compostes que, després d'analitzar les paraules compostes desconegudes, genera equivalents provisionals a partir del significat dels components. Es pot dir que encerta en el 70% dels casos mitjans. Com més tècnic és el text, més èxit té aquest sistema.

A l'hora de traduir un terme, l'equivalent es busca primer en els diccionaris més especialitzats i, si no es troba en ells, recorre als més generals en la cerca. No obstant això, l'usuari podrà modificar aquest ordre si ho desitja.

Els diccionaris que té METALL no són exactament iguals als que veiem en forma de llibre. Cada entrada inclou informació morfològica i sintàctica, representada mitjançant regles de reescriptura. Proposa regles per defecte per a les noves paraules.

La traducció la realitza la base de dades de les regles lingüístiques que s'encarreguen de l'anàlisi de les oracions. Això busca frases introduïdes al nivell més profund. Després va a poc a poc cap a la superfície, assignant regles de component estructural en cada nivell. En arribar als pegats superficials, crea una estructura arbòria per a tota l'oració.

Abans de seleccionar l'últim arbre, utilitza una estratègia de probabilitat en aquells casos en els quals existeix la possibilitat d'aplicar més d'una regla. Això requereix molta memòria: Més de 120Mb.

Una vegada obtingut l'arbre, la màquina LISP col·loca les oracions en una forma de representació similar a la gramàtica de casos.

Partint d'aquest nivell d'anàlisi profunda, el sistema genera un arbre de sortida en l'idioma de destinació. L'usuari té la possibilitat de modificar els codis dels pegats d'aquest, si és necessari.

El sistema analitza cadascuna de les oracions i emmagatzema la traducció obtinguda en un fitxer de sortida per a la postedició.

Cost i benefici

METALL tradueix prop de 200 pàgines en una jornada de 8 hores. Aquesta velocitat pot semblar alta o baixa, però si es té en compte la traducció completa (incloent el formato) es pot dir que és bastant ràpida, ja que l'empleat del lloc de postedició no pot preparar més de 40 o 50 pàgines. Per tant, per a donar format definitiu al treball que realitza METALL una nit l'endemà són necessaris cinc llocs de postedició. Encara que s'agiliti la traducció, si no es posés més personal i més màquines en el procés posterior no s'agilitaria el treball. Quant costa tot això? Els comptes són:

SINIX MX 300 amb impressora làser i perifèrics: 2.600.000 ptes. i cost de manteniment de la màquina 22.000 ptes. mensualment.
Programari per a màquina SINIX: 208.000 ptes.
Màquina LISP: 6.500.000 ptes.
Programari de traducció METALL: 5.850.000 ptes. i 60.000 ptes. cost mensual de manteniment.

Amb una inversió total de 15.000.000 de pessetes i un cost de manteniment mensual de 82.000 pessetes.

Descobreix si et convé comprar.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila