Metal. Sistema de tradución por computador de Siemens

Sagarna, Andoni

Ingeniaria

A empresa alemá Siemens é o gran fabricante de todo o relacionado coa electricidade. Esta actividade impulsou, tras dez anos de investigación, a decisión de desenvolver METAL, o sistema de tradución por computador máis avanzado actualmente no mercado.

Historial de produto

Como é sabido, a empresa alemá Siemens é o gran fabricante de todo o relacionado coa electricidade. Tamén fabrica centrais telefónicas. Esta actividade impulsou, tras dez anos de investigación, a decisión de desenvolver METAL, o sistema de tradución por computador máis avanzado actualmente no mercado. De feito, as 100.000 páxinas que compuñan a documentación dun sistema de telefonía non podían volver do alemán ao inglés dentro duns prazos e custos razoables. Por que non, entón, responder desenvolvendo un produto? E por que non partir dun desenvolvemento que xa comezara?

Así o fixeron, adquiriron o METAL (Machine Edited Text Aspiring Legibility) que se estaba preparando na Universidade de Texas. Dez anos despois, este sistema é capaz de volver do alemán ao inglés.

Antes do seu lanzamento, probaron ben o funcionamento de METAL, primeiro na sede de Munich de Siemens desde 1986, despois nas oficinas de tradución de Comex e Schönau und Damels de Zürich, despois en Philips Kommunikations-Industre de Nuremberg, Universidade de Villingen, Mannesmann Kiense e Hille.

Aínda que até a data METAL só ofrece a posibilidade de volver do alemán ao inglés, as versións de traducións do alemán ao español e do inglés ao alemán poderanse empezar a probar esta primavera.

Procedemento de traballo

METAL é máis que una ferramenta de tradución. Pódese definir como un paquete integrado de traducións técnicas repetitivas de gran masa de texto. Este software require dous computadores: Un ordenador SINIX do medio Siemens que traballa co sistema operativo Unix paira traballar o formato do texto e una máquina LISP coa gramática e o vocabulario necesario paira realizar a tradución. Ambas as máquinas únense mediante unha rede Ethernet. O usuario traballa nun PC conectado como terminal do computador SINIX.

Este terminal inclúe o texto fonte, ben desde un disco, por lectura óptica e un OCR (programa de recoñecemento de caracteres). Desde o terminal envíase a SINIX o texto paira a súa tradución. Una vez finalizada a formación envíase á máquina LISP paira a súa devolución e una vez finalizado este traballo pásase a SINIX paira realizar a postedición. A ampliación do novo léxico e axústelos gramaticales que se realizan na tradución automática realízanse na pantalla da máquina LISP.

É evidente que o obxectivo de METAL non é só traducir, senón que tamén responde a problemas de introdución e formateo do documento. Por iso, gráficos, táboas, tipo de letra, etc. do documento orixinal. respecta. Se isto pódese facer de forma ríxida, o problema sería sinxelo, pero como calquera tradutor sabe, ao volver cambian a lonxitude e a orde das palabras.

Paira superar esta obxección, METAL divide primeiro o formato e o texto. METAL soporta o texto elaborado en procesadores de textos como Word Star ou Word Perfecto.

Una vez dividido o formato e o texto, o texto divídese en frases curtas e envíase á máquina LISP paira a súa tradución.

Esta máquina, en primeiro lugar, busca no texto palabras descoñecidas, que non teñen no dicionario, e una vez listadas estas, o usuario debe codificar as novas entradas léxicas segundo uns criterios lingüísticos, utilizando o sistema de xanelas auxiliar que lle ofrece o programa.

A análise preliminar mostra as aparicións das novas palabras e os seus contextos. Deste xeito, o usuario pode ver en breve o uso destas palabras. Por certo, tamén é una vía paira detectar os escritos erróneos, xa que as palabras mal escritas normalmente terán una forma descoñecida.

METAL utiliza tres dicionarios básicos. Conta con dous dicionarios monolingües, cada un de 50.000 entradas, un en alemán e outro en inglés, e un dicionario de equivalencias entre palabras de ambas as linguas. Estes dicionarios están jerarquizados: os morfemas gramaticales sobre eles, o vocabulario común baixo eles e o vocabulario técnico xeneral máis abaixo. Ademais, existen dicionarios técnicos (informática, telecomunicacións, medicamento, etc.) organizado por módulos.

A análise preliminar mencionado crea una serie de ficheiros de glosarios que informan sobre a devolución de cada termo a través de diferentes dicionarios técnicos especializados.

Tamén existe un ficheiro de palabras compostas que, tras analizar as palabras compostas descoñecidas, xera equivalentes provisionais a partir do significado dos compoñentes. Pódese dicir que acerta no 70% dos casos medios. Canto máis técnico é o texto, máis éxito ten este sistema.

Á hora de traducir un termo, o equivalente búscase primeiro nos dicionarios máis especializados e, se non se atopa neles, recorre aos máis xerais na procura. No entanto, o usuario poderá modificar esta orde se o desexa.

Os dicionarios que ten METAL non son exactamente iguais aos que vemos en forma de libro. Cada entrada inclúe información morfológica e sintáctica, representada mediante regras de reescritura. Propón regras por defecto paira as novas palabras.

A tradución realízaa a base de datos das regras lingüísticas que se encargan da análise das oracións. Isto busca frases introducidas ao nivel máis profundo. Logo vai aos poucos cara á superficie, asignando regras de compoñente estrutural en cada nivel. Ao chegar aos parches superficiais, crea una estrutura arbórea paira toda a oración.

Antes de seleccionar a última árbore, utiliza una estratexia de probabilidade naqueles casos nos que existe a posibilidade de aplicar máis dunha regra. Isto require moita memoria: Máis de 120Mb.

Una vez obtido a árbore, a máquina LISP coloca as oracións nunha forma de representación similar á gramática de casos.

Partindo deste nivel de análise profunda, o sistema xera unha árbore de saída no idioma de destino. O usuario ten a posibilidade de modificar os códigos dos parches de leste, si é necesario.

O sistema analiza cada una das oracións e almacena a tradución obtida nun ficheiro de saída paira a postedición.

Custo e beneficio

METAL traduce preto de 200 páxinas nunha xornada de 8 horas. Esta velocidade pode parecer alta ou baixa, pero si tense en conta a tradución completa (incluíndo o formateo) pódese dicir que é bastante rápida, xa que o empregado do posto de postedición non pode preparar máis de 40 ou 50 páxinas. Por tanto, paira dar formato definitivo ao traballo que realiza METAL una noite ao día seguinte son necesarios cinco postos de postedición. Aínda que se axilice a tradución, se non se puxese máis persoal e máis máquinas no proceso posterior non se axilizaría o traballo. Canto custa todo isto? As contas son:

SINIX MX 300 con impresora láser e periféricos: 2.600.000 pts. e custo de mantemento da máquina 22.000 pts. mensualmente.
Software paira máquina SINIX: 208.000 ptas.
Máquina LISP: 6.500.000 pts.
Software de tradución METAL: 5.850.000 pts. e 60.000 pts. custo mensual de mantemento.

Cun investimento total de 15.000.000 de pesetas e un custo de mantemento mensual de 82.000 pesetas.

Descobre si convenche comprar.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila