Tecnologies de la Llengua i Indústries de la Llengua

Sagarna, Andoni

Ingeniaria

La informàtica és el tractament automàtic de la informació. Inicialment es limitava a realitzar càlculs numèrics, però a poc a poc s'ha anat tractant un altre tipus d'informació: música, imatge, etc. Aviat, en la dècada de 1950, va començar a processar les llengües humanes en aquesta evolució. Als 50 anys d'aquell inici, després d'un camí empinat, les aplicacions basades en el processament de la llengua estan arribant a la maduresa i al mercat, i algunes indústries que les treballen estan prenent força.
Tecnologies de la Llengua i Indústries de la Llengua
01/06/2009 | Sagarna Izagirre, Andoni | -
(Foto: Bram Janssens/350RF)

Seria bo que un basc que no sap japonès i un japonès que no sap basc, per exemple, pogués tenir una conversa telefònica en temps real, parlant en la seva pròpia llengua i escoltant el que l'altre diu en la seva pròpia llengua. Això, clar, és un somni en l'actualitat, però podem dir que estem fent petits passos cap a això.

És molt més senzill traduir textos escrits d'una llengua a una altra, però tampoc és fàcil fer-ho. Temes específics (manuals d'aparells, prediccions meteorològiques, etc.) Els sistemes automàtics que tracten a parelles lingüístiques concretes són els que obtenen els millors resultats sense grans correccions humanes.

No obstant això, la situació de la traducció automàtica ha canviat molt en els últims anys, entre altres coses perquè hi ha moltes traduccions que s'han realitzat en suport digital. La traducció automàtica es basava en regles gramaticals, però ara es poden utilitzar mètodes estadístics basats en grans bases de dades. Aquestes bases de dades contenen textos originals i les seves traduccions, formant corpus paral·lels. El sistema de traducció coneix les relacions entre els textos i és capaç de traduir-los quan se li presenta un text similar o igual. A mesura que existeixen grans corpus paral·lels, aquest sistema obté bons resultats.

La tendència actual és la de combinar mètodes regionals i estadístics.

En un nivell més baix, les denominades memòries de traducció resulten de gran ajuda en l'actualitat. Es tracta de bases de dades que contenen els episodis que han estat traduïts anteriorment. Quan el Traductor Humà està treballant i el sistema comprova que un apartat a traduir o molt similar està ja traduït, presenta al Traductor alguns equivalents a aquest apartat i aquest decideix si algun d'ells és vàlid o pot ser utilitzat amb alguna modificació. Aquests sistemes són molt beneficiosos ja que ajuden a aconseguir rapidesa i consistència.

Per a ajudar en l'elaboració de textos monolingües existeixen diferents eines: correctors ortogràfics que capten errors ortogràfics, correctors gramaticals que comproven que les frases són ajustades a la gramàtica, cercadors que ajuden a trobar informació en els documents, eines que fan un resum automàtic dels documents, explicacions lingüístiques a partir de dades no lingüístiques com les dades meteorològiques.

Entre nosaltres són molt coneguts els programes informàtics d'interpretació de textos impresos rebuts a través d'escàner (OCR). Una altra cosa és interpretar els manuscrits, que és molt més entremaliat.

Quan la llengua oral està present, la comprensió de la llengua oral i la creació de la llengua oral tenen una dificultat molt diferent. Avui dia són molt habituals els sistemes que "llegeixen" en veu alta textos escrits --per exemple, els que permeten escoltar el que diuen els textos escrits als invidents -, però fer el contrari, interpretar automàticament un sistema el que un ésser humà diu oralment, i convertir-lo en text escrit, per exemple, és molt més difícil.

Totes aquestes aplicacions van a poc a poc dels laboratoris al mercat. No en totes les llengües, desgraciadament. I és que cal fer grans inversions en recerca i les llengües que no ofereixen grans possibilitats per a recuperar-les estan retrocedint. No hi ha dubte que l'anglès continua sent l'idioma majoritari en aquest àmbit, ja que és el que més es relaciona amb els interessos econòmics.

Les tecnologies lingüístiques estan entrant molt en els serveis de salut. En l'àmbit sanitari, fins avui, la informació clínica s'ha conservat en grans masses de text no estructurades. La tecnologia lingüística permet als professionals de la salut estalviar molt de temps i augmentar la seguretat. La informació clínica que fins ara es redactava en text lliure se substitueix per una descripció estandarditzada dels diagnòstics, tractaments i fàrmacs mitjançant sistemes específics.

La tecnologia lingüística també està sent introduïda en altres sectors com el d'automoció, aviació i organitzacions internacionals. En aquests sectors, com a conseqüència de la globalització, han de crear documentació escrita en moltes llengües i formar al personal multicultural i plurilingüe.

Per a això, són imprescindibles la traducció automàtica, el programari d'extracció i gestió de terminologia, els correctors ortogràfics, la gestió de documentació multilingüe, etc., per a estalviar temps i garantir la consistència dels resultats.

Sagarna Izagirre, Andoni
Serveis
254
2009
Seguretat
031
Tecnologia
Anàlisi
Serveis
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila