La qualitat del treball del traductor humà serà, sens dubte, millor i més rica, però avui dia és possible crear documents en un camp concret i tècnic com és la meteorologia, utilitzant tècniques automàtiques. En
aquest article presentem el sistema interactiu Multimeteo que utilitza la creació textual multilingüe en l'àmbit de la meteorologia, així com l'adaptació que hem realitzat a la creació en basca. El sistema desenvolupat ofereix pronòstics meteorològics diaris en la següent adreça web: http://www.ingurumena.net/udala //www.inm.es/wwi/multimeteo/multimeteo.html
Encara que no s'utilitza la creació automàtica de textos, cal esmentar aquí un sistema que tradueix automàticament les prediccions meteorològiques. El sistema METEO creat pel grup TAUM de Mont-real ha estat el sistema de traducció més reeixit de tots els temps. Era difícil trobar traductors per a traduccions avorrides que s'assemblaven diàriament, i el servei meteorològic oficial del Canadà va començar a investigar les vies automàtiques. El sistema METEO obtingut ha estat traduint butlletins meteorològics de l'anglès al francès des de 1977, i el 80% de la seva traducció és totalment directa. No obstant això, l'èxit de la meteorologia no s'ha estès, ja que encara que el sistema s'ha adaptat a altres qüestions, no s'han obtingut resultats d'igual qualitat. Sembla que l'àmbit de les prediccions meteorològiques té una especial adequació a aquesta mena de processos automàtics.
L'entorn de treball Forecast Generator (FoG) també es va posar en marxa al Canadà en 1993. En aquest sistema, el meteoròleg utilitza un editor gràfic per a adaptar el mapa que mostra les dades meteorològiques i posteriorment el sistema genera automàticament la predicció meteorològica en anglès i francès per a la regió.
En 1995 el Servei Meteorològic Francès (Meteo France) va impulsar el projecte MultiMeteo per a la publicació de les previsions meteorològiques en diversos idiomes. Per a això es va posar en contacte amb l'Institut Nacional de Meteorologia (INM) d'Espanya, el Royal Meteorological Institute (RMI) de Bèlgica, el Zentralanstallt für Meteorologie und Geodynamik d'Àustria (ZAMG) i dues empreses especialitzades en la creació lingüística: Lexiquest, amb seu a París, i CL Serveis Lingüístics de Madrid. El servei de meteorologia alemany (DWD) també es va unir inicialment, però va ser abandonat posteriorment.
Aquestes associacions van presentar el projecte denominat “Multilingual Production of Weather Forecasts” i van obtenir finançament comunitari. El sistema es va desenvolupar en quatre idiomes: francès, anglès, castellà i alemany. Els resultats de l'avaluació realitzada al febrer de 1999 van ser molt positius.
L'any 2000 INM i Lexiquest van aconseguir un acord per a estendre el sistema a quatre llengües més: l'holandès, el català, el gallec i el basc. El Grup Ixa i el Centre de Terminologia UZEI de la Facultat d'Informàtica de Sant Sebastià ens hem encarregat de la difusió al basc, i en aquest moment estem a punt de finalitzar la fase de desenvolupament del projecte.
Per a la recollida de dades meteorològiques s'utilitzen dues fonts: la recollida superficial de dades i la recollida espacial. Les dades superficials es prenen en els observatoris meteorològics, en els quals es mesuren i recullen en tot moment les variables físiques que descriuen l'estat de l'atmosfera. Altres dades que s'obtenen de l'espai són els satèl·lits meteorològics, els satèl·lits geoestacionaris METEOSAT i els satèl·lits polars de la sèrie TIRS-NOAA, que no per a d'enviar informació.
Totes les dades numèriques obtinguts es processen mitjançant complexos models matemàtics. Els processos automàtics simulen l'evolució de les variables físiques en els pròxims dies, generant matrius de dades per a prediccions meteorològiques. El meteoròleg té llavors l'oportunitat de retocar aquestes matrius de dades, és a dir, de completar i arrodonir la previsió amb la seva experiència. Com a conclusió, tal com s'observa en la Taula 1, les matrius presenten dades de temperatura (Et), direcció del vent (DD) i força (FF), núvols, pluja, etc. per a diferents hores (períodes de 3 hores en el cas del sistema de l'INM). Per a cada punt del mapa s'obté una matriu d'aquest tipus.
Amb aquestes dades els meteoròlegs creen les prediccions meteorològiques manualment. Aquest treball resulta molt llarg i costós, sobretot quan d'una sola predicció cal fer diverses versions en diferents idiomes o estils (prediccions generals, de platges, de mar, de muntanya, per comunitat, per província...).
Aquí està l'interès de MultiMeteo. No es tracta de substituir l'obra dels meteoròlegs, sinó de contribuir de manera interactiva a les seves tasques, de manera que es puguin difondre les prediccions en diferents idiomes i estils. A més, permet realitzar prediccions per a diferents llocs del mapa.
Aquesta tècnica, en primer lloc, mitjançant la creació automàtica, genera un esborrany a partir de dades d'entrada potser incomplets. Encara que té la capacitat de crear text en diversos idiomes, al meteoròleg, per a actuar com a corrector, se li ofereix únicament en la seva llengua materna. Si el meteoròleg desitja realitzar una correcció en un fragment de text, haurà de fer clic en la part que desitgi modificar. A continuació, el menú “pop-up” li oferirà una sèrie d'opcions i modificadors alternatius, triant un d'ells per a realitzar la correcció de manera còmoda. Tenint en compte els canvis realitzats, el sistema generarà textos predictius en tots els idiomes.
Els avantatges d'aquesta tècnica són la rapidesa (per a produir cada text en cada idioma es necessiten uns 2 segons; un traductor humà necessita uns 10 minuts); la viabilitat de la creació, encara que alguna dada no s'hagi recollit encara, l'alta qualitat dels textos creats (a vegades amb tocs humans); la facilitat de manteniment i adaptació; i finalment, l'acceptació per part dels usuaris humans (als meteoròlegs no els llevarà el lloc de treball, sinó que els ajudarà a escriure en llengües estranyes).
MultiMeteo realitza la creació de dues formes:
Predicció meteorològica *IS *CO. *MO *FD.
Hora Local: *FP.
Valor de l'anunci: *TT.
on:
El motor de generació utilitzat pel sistema es va desenvolupar en 1994 en francès per a la generació automàtica de cartes comercials. En 1995 es va estendre a l'anglès integrant-se en un prototip de traducció de manuals tècnics. I el mateix any també es va integrar en el projecte “Multilingual Production of Weather Forecasts” per a incorporar nous llenguatges i funcionalitats en la creació de butlletins meteorològics (creació interactiva i gestió de coneixements estilístics).
L'arquitectura del sistema es pot veure en la figura 2. La primera fase consisteix en l'obtenció i reformateo d'una base de dades meteorològics que permeti la utilització de mòduls de generació. Posteriorment, la tasca del mòdul de creació es divideix en dues parts: planificar i executar.
La planificació utilitza bases de coneixement de conceptes i estils (UE) i es divideix en dues fases:
El succés és un objecte conceptual associat a la situació meteorològica o evolució de la situació. Els fenòmens són de dos tipus: atòmics i moleculars.
El succés atòmic representa un paràmetre meteorològic sense evolució, amb un únic valor associat ( atribut Value). Per exemple , el succés atòmic que representa el cel cobert és:
Event_CloudCovering4: Event{} Value=Class CloudCovering_code4 és un conjunt de conceptes simples: Overcast, NoSun i VeryCloudy-Overcast. Cadascun d'aquests conceptes està associat a un terme en cada llengua.
El succés molecular indica més d'un paràmetre. Per exemple, quan parlem de vent podem tenir força, direcció i dades d'evolució. Poden portar diversos valors ( Value0 , Value1 , etc. atributs), així com un operador (atribut Operator) que especifica la manera de recollir aquests valors. Per exemple, el succés molecular per a descriure el cel sense núvols a estar cobert és:
GrowingCloudier_Min0: Event_mol{ Value0=Aquest succés molecular es manifesta mitjançant dos episodis atòmics i un operador. Serveix per a situar els esdeveniments estafi - representation en el temps (present, passat o futur) i indica el període (dia, matí, tarda, nit...).
A la sortida del mòdul de planificació se selecciona un concepte per a cada esdeveniment atòmic i per a cada classe d'atribut Operator dels esdeveniments moleculars. A més, es poden afegir altres atributs (automàticament o en interacció amb el meteoròleg): índex de probabilitat, fase, període...
El mòdul per a materialitzar lingüísticament els conceptes obtinguts en cada llengua està basat en la Teoria del Significat - Text (Mel’cuk 1988, Polguère 1988). En aquesta fase s'utilitza una base de coneixement lingüística que es divideix en cinc etapes: predenotación, semàntica, sintaxi profunda, sintaxi superficial i morfologia.
El treball computacional per a la difusió del sistema MultiMeteo al basc ha estat desenvolupat pel grup IXA i el treball terminològic ha estat realitzat per UZEI. Les adaptacions al gallec i català s'han realitzat a partir de la versió castellana, i han hagut de treballar sobretot el lèxic, ja que no es requeria grans canvis en sintaxis i morfologia. Per a l'euskara, encara que hem partit del castellà (i a vegades del francès), la majoria de les estructures de les frases han estat modificades i hem hagut de treballar especialment amb marques de declinació morfològica.
Comencem el nostre treball en tres fases:
L'adaptació la realitzem en tres subfases: primer abordem els successos atòmics (per exemple, el “cel, cobert”), després els successos moleculars que eren fàcils (per exemple, el “vent, feble, del nord”), i finalment, els successos moleculars que presentaven especials dificultats (per exemple, el cel, inicialment cobert, amb pluja, posteriorment molt cobert temporalment).
En cadascuna de les fases d'adaptació es va realitzar una anàlisi lingüística prèvia, una anàlisi i disseny de la informació a incloure en la base de coneixement, una introducció i prova de la informació d'un exemple representatiu per a cada esdeveniment i, finalment, una introducció i prova de totes les possibilitats per a cada tipus d'esdeveniment.
Les principals característiques d'aquesta adaptació són:
Si posteriorment es volgués ampliar el sistema amb altres estils, s'haurien d'utilitzar més casos de declinació, per la qual cosa caldria introduir aquests casos en el diccionari. Vegem, per exemple, la introducció del vocabulari de la paraula pluja:
BA_Euri1 :En la taula 3 es pot observar com s'han materialitzat diversos conceptes atòmics en basc (s'inclou la realització en castellà i francès de referència).
En la Taula 4 es pot observar l'execució de diversos conceptes moleculars. Les variables indiquen, quan s'indiquen, els valors d'aquest succés: Variables N estat dels núvols (oscarbia, sota núvol, cobert...); Variables DD direcció del vent (nord, sud-oest, etc.); Les variables FF són la força del vent (moderada, fort,...); Variables TS precipitacions (pluja, plugim...), Període PER (matins...)...
El projecte es troba actualment en les últimes fases de desenvolupament. El següent pas és una prova massiva per a analitzar possibles errors en el sistema. A continuació realitzar els canvis necessaris i l'avaluació final. No obstant això, l'adaptació realitzada està ja integrada en el sistema de l'INM i cada dia s'ofereixen les previsions meteorològiques de les comunitats de l'estat espanyol en la web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.
A més de l'escriptura telegràfica de l'objectiu general, la realització de prediccions de propòsit especial (per a platges, muntanyencs, esquiadors...) i l'elaboració d'escriptures més riques (per exemple, la introducció de verbs amb frases completes) serien passos factibles a mitjà termini. Aquest tipus de versions completes s'han realitzat en francès i s'utilitzen en l'actualitat. De moment bastaria amb analitzar la utilitat del sistema desenvolupat per al basc, i si posteriorment es detectés la necessitat, llavors caldria abordar l'organització de les millores esmentades.