Tecnoloxías da Lingua e Industrias da Lingua

Sagarna, Andoni

Ingeniaria

A informática é o tratamento automático da información. Inicialmente limitábase a realizar cálculos numéricos, pero aos poucos foise tratando outro tipo de información: música, imaxe, etc. Pronto, na década de 1950, comezou a procesar as linguas humanas nesa evolución. Aos 50 anos daquel inicio, tras un camiño empinado, as aplicacións baseadas no procesamiento da lingua están a chegar á madurez e ao mercado, e algunhas industrias que as traballan están a tomar forza.
Tecnoloxías da Lingua e Industrias da Lingua
01/06/2009 | Sagarna Izagirre, Andoni | -
(Foto: Bram Janssens/350RF)

Sería bo que un vasco que non sabe xaponés e un xaponés que non sabe eúscaro, por exemplo, puidese ter una conversación telefónica en tempo real, falando na súa propia lingua e escoitando o que o outro di na súa propia lingua. Iso, claro, é un soño na actualidade, pero podemos dicir que estamos a dar pequenos pasos cara a iso.

É moito máis sinxelo traducir textos escritos dunha lingua a outra, pero tampouco é fácil facelo. Temas específicos (manuais de aparellos, predicións meteorolóxicas, etc.) Os sistemas automáticos que tratan a parellas lingüísticas concretas son os que obteñen os mellores resultados sen grandes correccións humanas.

Con todo, a situación da tradución automática ha cambiado moito nos últimos anos, entre outras cousas porque hai moitas traducións que se realizaron en soporte dixital. A tradución automática baseábase en regras gramaticales, pero agora pódense utilizar métodos estatísticos baseados en grandes bases de datos. Estas bases de datos conteñen textos orixinais e as súas traducións, formando corpus paralelos. O sistema de tradución coñece as relacións entre os textos e é capaz de traducilos cando se lle presenta un texto similar ou igual. A medida que existen grandes corpus paralelos, este sistema obtén bos resultados.

A tendencia actual é a de combinar métodos rexionais e estatísticos.

Nun nivel máis baixo, as denominadas memorias de tradución resultan de gran axuda na actualidade. Trátase de bases de datos que conteñen os episodios que foron traducidos anteriormente. Cando o Tradutor Humano está a traballar e o sistema comproba que un apartado a traducir ou moi similar está xa traducido, presenta ao Tradutor algúns equivalentes a devandito apartado e este decide si algún deles é válido ou pode ser utilizado con algunha modificación. Estes sistemas son moi beneficiosos xa que axudan a conseguir rapidez e consistencia.

Paira axudar na elaboración de textos monolingües existen diferentes ferramentas: correctores ortográficos que captan erros ortográficos, correctores gramaticales que comproban que as frases son axustadas á gramática, buscadores que axudan a atopar información nos documentos, ferramentas que fan un resumo automático dos documentos, explicacións lingüísticas a partir de datos non lingüísticos como os datos meteorolóxicos.

Entre nós son moi coñecidos os programas informáticos de interpretación de textos impresos recibidos a través de escáner (OCR). Outra cousa é interpretar os manuscritos, que é moito máis traveso.

Cando a lingua oral está presente, a comprensión da lingua oral e a creación da lingua oral teñen una dificultade moi diferente. Hoxe en día son moi habituais os sistemas que "len" en voz alta textos escritos --por exemplo, os que permiten escoitar o que din os textos escritos aos invidentes -, pero facer o contrario, interpretar automaticamente un sistema o que un ser humano di oralmente, e convertelo en texto escrito, por exemplo, é moito máis difícil.

Todas estas aplicacións van aos poucos dos laboratorios ao mercado. Non en todas as linguas, desgraciadamente. E é que hai que facer grandes investimentos en investigación e as linguas que non ofrecen grandes posibilidades paira recuperalas están a retroceder. Non hai dúbida de que o inglés segue sendo o idioma maioritario neste ámbito, xa que é o que máis se relaciona cos intereses económicos.

As tecnoloxías lingüísticas están a entrar moito nos servizos de saúde. No ámbito sanitario, até a data, a información clínica conservouse en grandes masas de texto non estruturadas. A tecnoloxía lingüística permite aos profesionais da saúde aforrar moito tempo e aumentar a seguridade. A información clínica que até agora se redactaba en texto libre substitúese por unha descrición estandarizada dos diagnósticos, tratamentos e fármacos mediante sistemas específicos.

A tecnoloxía lingüística tamén está a ser introducida noutros sectores como o de automoción, aviación e organizacións internacionais. Nestes sectores, como consecuencia da globalización, deben crear documentación escrita en moitas linguas e formar ao persoal multicultural e plurilingüe.

Paira iso, son imprescindibles a tradución automática, o software de extracción e xestión de terminología, os correctores ortográficos, a xestión de documentación multilingüe, etc., paira aforrar tempo e garantir a consistencia dos resultados.

Sagarna Izagirre, Andoni
Servizos
254
2009
Seguridade
031
Tecnoloxía
Análise
Servizos
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila