MultiMeteo també sap basc

El temps atmosfèric influeix molt en el nostre dia a dia. L'home sempre ha estat mirant cap al cel intentant descobrir si plou, tempesta, sol o quins dimonis porta. Els avanços tècnics han permès aconseguir una fiabilitat molt alta en les prediccions per a 48 hores. En conseqüència, la nostra societat, en general, viu a l'espera i a la set d'aquests pronòstics avui dia, o ... no són els moments de la televisió i la ràdio els de les previsions meteorològiques? Aquesta set ha creat una situació idònia per a investigar i comercialitzar sistemes d'escriptura d'anuncis, així com per a idear eines automàtiques per a la difusió d'aquest tipus de textos a diversos idiomes.

La qualitat del treball del traductor humà serà, sens dubte, millor i més rica, però avui dia és possible crear documents en un camp concret i tècnic com és la meteorologia, utilitzant tècniques automàtiques. En
aquest article presentem el sistema interactiu Multimeteo que utilitza la creació textual multilingüe en l'àmbit de la meteorologia, així com l'adaptació que hem realitzat a la creació en basca. El sistema desenvolupat ofereix pronòstics meteorològics diaris en la següent adreça web: http://www.ingurumena.net/udala //www.inm.es/wwi/multimeteo/multimeteo.html

Antecedents

Imatge rebuda pel satèl·lit Meteosat.
meteosat

Encara que no s'utilitza la creació automàtica de textos, cal esmentar aquí un sistema que tradueix automàticament les prediccions meteorològiques. El sistema METEO creat pel grup TAUM de Mont-real ha estat el sistema de traducció més reeixit de tots els temps. Era difícil trobar traductors per a traduccions avorrides que s'assemblaven diàriament, i el servei meteorològic oficial del Canadà va començar a investigar les vies automàtiques. El sistema METEO obtingut ha estat traduint butlletins meteorològics de l'anglès al francès des de 1977, i el 80% de la seva traducció és totalment directa. No obstant això, l'èxit de la meteorologia no s'ha estès, ja que encara que el sistema s'ha adaptat a altres qüestions, no s'han obtingut resultats d'igual qualitat. Sembla que l'àmbit de les prediccions meteorològiques té una especial adequació a aquesta mena de processos automàtics.

L'entorn de treball Forecast Generator (FoG) també es va posar en marxa al Canadà en 1993. En aquest sistema, el meteoròleg utilitza un editor gràfic per a adaptar el mapa que mostra les dades meteorològiques i posteriorment el sistema genera automàticament la predicció meteorològica en anglès i francès per a la regió.

Història del sistema multiMeteo

HGMTN tWWiWpWeWtToTopToeVvpVeVtTeDT eHDFFtHN
Barcelona
03.002200000001830110999906:0032122200000001730110999909:001222000000021201109912:001222000000020000000250109109915001100021000021000011090021000011090021000011090021000011090011000110002100015001100011000100110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000120000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000110001100011000
Taula . Matriu de dades de predicció meteorològica.

En 1995 el Servei Meteorològic Francès (Meteo France) va impulsar el projecte MultiMeteo per a la publicació de les previsions meteorològiques en diversos idiomes. Per a això es va posar en contacte amb l'Institut Nacional de Meteorologia (INM) d'Espanya, el Royal Meteorological Institute (RMI) de Bèlgica, el Zentralanstallt für Meteorologie und Geodynamik d'Àustria (ZAMG) i dues empreses especialitzades en la creació lingüística: Lexiquest, amb seu a París, i CL Serveis Lingüístics de Madrid. El servei de meteorologia alemany (DWD) també es va unir inicialment, però va ser abandonat posteriorment.

Aquestes associacions van presentar el projecte denominat “Multilingual Production of Weather Forecasts” i van obtenir finançament comunitari. El sistema es va desenvolupar en quatre idiomes: francès, anglès, castellà i alemany. Els resultats de l'avaluació realitzada al febrer de 1999 van ser molt positius.

L'any 2000 INM i Lexiquest van aconseguir un acord per a estendre el sistema a quatre llengües més: l'holandès, el català, el gallec i el basc. El Grup Ixa i el Centre de Terminologia UZEI de la Facultat d'Informàtica de Sant Sebastià ens hem encarregat de la difusió al basc, i en aquest moment estem a punt de finalitzar la fase de desenvolupament del projecte.

Procediment habitual de creació de prediccions meteorològiques

Per a la recollida de dades meteorològiques s'utilitzen dues fonts: la recollida superficial de dades i la recollida espacial. Les dades superficials es prenen en els observatoris meteorològics, en els quals es mesuren i recullen en tot moment les variables físiques que descriuen l'estat de l'atmosfera. Altres dades que s'obtenen de l'espai són els satèl·lits meteorològics, els satèl·lits geoestacionaris METEOSAT i els satèl·lits polars de la sèrie TIRS-NOAA, que no per a d'enviar informació.

Totes les dades numèriques obtinguts es processen mitjançant complexos models matemàtics. Els processos automàtics simulen l'evolució de les variables físiques en els pròxims dies, generant matrius de dades per a prediccions meteorològiques. El meteoròleg té llavors l'oportunitat de retocar aquestes matrius de dades, és a dir, de completar i arrodonir la previsió amb la seva experiència. Com a conclusió, tal com s'observa en la Taula 1, les matrius presenten dades de temperatura (Et), direcció del vent (DD) i força (FF), núvols, pluja, etc. per a diferents hores (períodes de 3 hores en el cas del sistema de l'INM). Per a cada punt del mapa s'obté una matriu d'aquest tipus.

Amb aquestes dades els meteoròlegs creen les prediccions meteorològiques manualment. Aquest treball resulta molt llarg i costós, sobretot quan d'una sola predicció cal fer diverses versions en diferents idiomes o estils (prediccions generals, de platges, de mar, de muntanya, per comunitat, per província...).

Aquí està l'interès de MultiMeteo. No es tracta de substituir l'obra dels meteoròlegs, sinó de contribuir de manera interactiva a les seves tasques, de manera que es puguin difondre les prediccions en diferents idiomes i estils. A més, permet realitzar prediccions per a diferents llocs del mapa.

Una eina de suport: creació multilingüe interactiva

Figura . Butlletí creat en basc per MultiMeteo.

Aquesta tècnica, en primer lloc, mitjançant la creació automàtica, genera un esborrany a partir de dades d'entrada potser incomplets. Encara que té la capacitat de crear text en diversos idiomes, al meteoròleg, per a actuar com a corrector, se li ofereix únicament en la seva llengua materna. Si el meteoròleg desitja realitzar una correcció en un fragment de text, haurà de fer clic en la part que desitgi modificar. A continuació, el menú “pop-up” li oferirà una sèrie d'opcions i modificadors alternatius, triant un d'ells per a realitzar la correcció de manera còmoda. Tenint en compte els canvis realitzats, el sistema generarà textos predictius en tots els idiomes.

Els avantatges d'aquesta tècnica són la rapidesa (per a produir cada text en cada idioma es necessiten uns 2 segons; un traductor humà necessita uns 10 minuts); la viabilitat de la creació, encara que alguna dada no s'hagi recollit encara, l'alta qualitat dels textos creats (a vegades amb tocs humans); la facilitat de manteniment i adaptació; i finalment, l'acceptació per part dels usuaris humans (als meteoròlegs no els llevarà el lloc de treball, sinó que els ajudarà a escriure en llengües estranyes).

Creació automàtica de butlletins

Figura . Arquitectura del sistema.

MultiMeteo realitza la creació de dues formes:

  • Per a la redacció del títol de cada paràgraf s'utilitza un text fix amb el nom de les províncies, i per a escriure l'encapçalat dels butlletins (veure figura 1) s'utilitza una plantilla amb diverses variables internes, per exemple:

Predicció meteorològica *IS *CO. *MO *FD.
Hora Local: *FP.
Valor de l'anunci: *TT.

on:

  • El valor d'IS pot ser "per províncies", "per illes" o res.
  • Valor del CO - nom de les comunitats (per exemple, per a la "Comunitat Autònoma de Galícia").
  • Mes MO ("Juny")
  • Data de la DF, expressada en xifres.
  • FP indica hora
  • Període de predicció per TT (per exemple, “avui de 06.00 a 12.00 de la mitjanit”).
  • Per a escriure el cos dels paràgrafs s'utilitza un mètode molt més complex. En els següents punts s'explica l'arquitectura i els mòduls necessaris per a abordar la creació automàtica a aquest nivell.

Arquitectura general del sistema

El motor de generació utilitzat pel sistema es va desenvolupar en 1994 en francès per a la generació automàtica de cartes comercials. En 1995 es va estendre a l'anglès integrant-se en un prototip de traducció de manuals tècnics. I el mateix any també es va integrar en el projecte “Multilingual Production of Weather Forecasts” per a incorporar nous llenguatges i funcionalitats en la creació de butlletins meteorològics (creació interactiva i gestió de coneixements estilístics).

L'arquitectura del sistema es pot veure en la figura 2. La primera fase consisteix en l'obtenció i reformateo d'una base de dades meteorològics que permeti la utilització de mòduls de generació. Posteriorment, la tasca del mòdul de creació es divideix en dues parts: planificar i executar.

Mòdul de planificació

La planificació utilitza bases de coneixement de conceptes i estils (UE) i es divideix en dues fases:

  • Planificació general: el butlletí s'organitza en diversos paràgrafs (capçalera, paràgraf per a cada província, etc.)
  • Planificació meteorològica: a partir de les dades d'entrada es determina el contingut de cada paràgraf. Els esdeveniments ( event ) que han d'aparèixer en el paràgraf i les relacions entre ells es recullen en una llista utilitzant un interlingua, de manera que la descripció sigui independent dels idiomes. Els següents mòduls es realitzaran per a cada idioma.

El succés és un objecte conceptual associat a la situació meteorològica o evolució de la situació. Els fenòmens són de dos tipus: atòmics i moleculars.

El succés atòmic representa un paràmetre meteorològic sense evolució, amb un únic valor associat ( atribut Value). Per exemple , el succés atòmic que representa el cel cobert és:

Event_CloudCovering4: Event{} Value=
Class
CloudCovering_code4; Time_Representation=
TimeRepresentationMod{};}

Class CloudCovering_code4 és un conjunt de conceptes simples: Overcast, NoSun i VeryCloudy-Overcast. Cadascun d'aquests conceptes està associat a un terme en cada llengua.

El succés molecular indica més d'un paràmetre. Per exemple, quan parlem de vent podem tenir força, direcció i dades d'evolució. Poden portar diversos valors ( Value0 , Value1 , etc. atributs), així com un operador (atribut Operator) que especifica la manera de recollir aquests valors. Per exemple, el succés molecular per a descriure el cel sense núvols a estar cobert és:

GrowingCloudier_Min0: Event_mol{ Value0=
Event_CloudCovering0; Value1=
Event_CloudCovering4;
Operator= Class
GrowingCloudier_Min0; Time_Representation=
TimeRepresentationMod{};}

Aquest succés molecular es manifesta mitjançant dos episodis atòmics i un operador. Serveix per a situar els esdeveniments estafi - representation en el temps (present, passat o futur) i indica el període (dia, matí, tarda, nit...).

A la sortida del mòdul de planificació se selecciona un concepte per a cada esdeveniment atòmic i per a cada classe d'atribut Operator dels esdeveniments moleculars. A més, es poden afegir altres atributs (automàticament o en interacció amb el meteoròleg): índex de probabilitat, fase, període...

Mòdul d'execució

zeru1Sem
Concepte
simple
Terme en basc
Definició del terme: Unitats semàntiques ( Usem )
Representació
semàntica ( Rsem )
estali1sem
Overcast
Cel cobert Cobert
Usem = Zeru1Sem
UsemR1_HIVERN= Estali1Sem
Usem = Estali1Sem
Taula . Conceptes simples, termes en basc i la seva expressió semàntica.

El mòdul per a materialitzar lingüísticament els conceptes obtinguts en cada llengua està basat en la Teoria del Significat - Text (Mel’cuk 1988, Polguère 1988). En aquesta fase s'utilitza una base de coneixement lingüística que es divideix en cinc etapes: predenotación, semàntica, sintaxi profunda, sintaxi superficial i morfologia.

  1. Predenotación. En aquesta etapa se selecciona per a cada concepte simple derivat de la planificació un terme corresponent a aquest idioma. Per exemple, per al concepte simple Overcast del grup Class CloudCovering_code4 anteriorment esmentat se seleccionarà un dels termes Cel, Cobert o Cobert. Aquests termes es divideixen en unitats semàntiques ( USem ), amb les quals es crea l'expressió semàntica ( RS ) (veure ).
  2. Semàntica. De l'expressió semàntica Rsem es forma el graf de la sintaxi profunda formada per nodes i relacions, per al que se selecciona la unitat lexical corresponent a cada unitat semàntica.
  3. Sintaxi profunda. Es construeix un graf que té totes les paraules de la frase a crear en els nodes.
  4. Sintaxi cutània. S'ordenen els nodes per a determinar el lloc que ha d'ocupar cada paraula en la frase.
  5. Morfologia. La forma de paraula que li correspon segons la informació morfosintàctica de cada node es recull del diccionari. En el diccionari s'emmagatzemen totes les formes declinades per a evitar la creació morfològica.

Adaptació al basc

Concepte
Execució en basca
Execució en francès
Execució en castellà
NebDim_inm
Reducció de núvols
diminution de la nebulosite
disminució de la nuvolositat
Neb0_inm
cel, óscarbia
sentència
cel buidat
Neb6 _inm
rang de núvols
passages nuageux
intervals nuvolosos
Neb8_inm
núvols desenvolupats al llarg del dia
En el cas dels bascos
nuvolositat d'evolució
diürna
DD1
vent del nord
vent nord
vent del Nord
FF4
vent, molt fort
confort
molt fort
FF5
vent, huracanat
pèrdua
vent huracanat
TempeRel1
descens significatiu de les temperatures
xutada important donis temperatures

TempeRel2
disminució moderada de les temperatures
temperatura ambient

TN2
pluja
pluviometria
pluja
RT3
ruixats
aversación
ruixats
Br1
cru
brume seche
calitja
Br2
ennuvolat
boira
boira
Morning_Mid
al matí
en milieu de matinées
a mitjan matí
Taula . Execució d'alguns conceptes atòmics en basc, francès i castellà.

El treball computacional per a la difusió del sistema MultiMeteo al basc ha estat desenvolupat pel grup IXA i el treball terminològic ha estat realitzat per UZEI. Les adaptacions al gallec i català s'han realitzat a partir de la versió castellana, i han hagut de treballar sobretot el lèxic, ja que no es requeria grans canvis en sintaxis i morfologia. Per a l'euskara, encara que hem partit del castellà (i a vegades del francès), la majoria de les estructures de les frases han estat modificades i hem hagut de treballar especialment amb marques de declinació morfològica.

Comencem el nostre treball en tres fases:

  • recollida i anàlisi del corpus del temps en basc,
  • Coneixement del sistema multiMeteo i la seva arquitectura, i
  • adaptació del sistema.

L'adaptació la realitzem en tres subfases: primer abordem els successos atòmics (per exemple, el “cel, cobert”), després els successos moleculars que eren fàcils (per exemple, el “vent, feble, del nord”), i finalment, els successos moleculars que presentaven especials dificultats (per exemple, el cel, inicialment cobert, amb pluja, posteriorment molt cobert temporalment).

En cadascuna de les fases d'adaptació es va realitzar una anàlisi lingüística prèvia, una anàlisi i disseny de la informació a incloure en la base de coneixement, una introducció i prova de la informació d'un exemple representatiu per a cada esdeveniment i, finalment, una introducció i prova de totes les possibilitats per a cada tipus d'esdeveniment.

Les principals característiques d'aquesta adaptació són:

  • Tenint en compte que les prediccions generades pel sistema havien de seguir l'estil telegràfic de l'INM, decidim eliminar els verbs. Així mateix, els modificadors del nom que és l'àrea de la frase aniran separats per comes com a sintagma d'atributs. Per exemple, en lloc de donar “Vent del Nord feble” o “Vent del Nord i Feble”, el sistema generarà “Vent del Nord, feble”.
  • Les evolucions meteorològiques expressades en francès i castellà per gerundi es realitzen d'una altra manera en basca. Per exemple, "Cel buidat en augment a nuvolós" ho crearem en basc de la següent manera: “El cel, al principi oscarbio, després ennuvolat”.
  • En el diccionari hem escrit totes les formes de paraules (a vegades unitats multi-paraula) que es poden utilitzar en els butlletins. En els butlletins s'utilitzen per moments dos casos: absolut i sociativo. El lema de la paraula és també possible.

Si posteriorment es volgués ampliar el sistema amb altres estils, s'haurien d'utilitzar més casos de declinació, per la qual cosa caldria introduir aquests casos en el diccionari. Vegem, per exemple, la introducció del vocabulari de la paraula pluja:

BA_Euri1 :
LexemeNomBA{
CatMorph = NOM; SsCatMorph = COMMUN; UMorph=
[ morpho{Cas= ABS;

Nom= SINGULIER;UMG= "euria"},
morpho}=

Phuns;
  • La zona de la frase, per defecte, tindrà el cas de la declinació absoluta, i el cas dels modificadors de la zona es determinarà en la definició del concepte o terme. Per exemple, el concepte que crea "El cel, cobert, amb pluja" ha de precisar que el terme cobrir ocuparà l'absolutivo singular i la pluja sociativa singular. En l'absolutivo singular apareix el terme zeru perquè és l'espai de l'oració.
  • En basc, el cas de declinació del sintagma s'adhereix a l'última paraula de cada sintagma, i el sistema no donava l'oportunitat de gestionar-lo de manera elegant. Per això, hem hagut d'afegir una sèrie de regles: d'una banda, a nivell conceptual, el sistema pega la marca de cas a totes les paraules de cada sintagma, i després quan s'ordenen les paraules en l'etapa de sintaxi superficial, quitació el cas a les quals no són l'última paraula. Per exemple, per a crear la frase “El cel, cobert, amb pluges generals i tempestes”, s'indica en un concepte que tot el sintagma de pluja general i tempestes ha de portar el cas del sociativo; per a això cal marcar tots els termes amb el cas pluja (soz)+general(soz)+ekaitz(soz) ; perquè més tard els termes pluja, i general es desmarquin amb «precedint».

En la taula 3 es pot observar com s'han materialitzat diversos conceptes atòmics en basc (s'inclou la realització en castellà i francès de referència).

En la Taula 4 es pot observar l'execució de diversos conceptes moleculars. Les variables indiquen, quan s'indiquen, els valors d'aquest succés: Variables N estat dels núvols (oscarbia, sota núvol, cobert...); Variables DD direcció del vent (nord, sud-oest, etc.); Les variables FF són la força del vent (moderada, fort,...); Variables TS precipitacions (pluja, plugim...), Període PER (matins...)...

Obres de futur

Concepte
Execució en basca
Execució en francès
Execució en castellà
OrageGrele
tempestes de tro amb calamarsa
orage compagné de grel

tempestes amb calamarsa
NebEvSpec
cel, al principi N1, després N2
ciel N1devenorg N2
cel Ampliant/
Reduint a N2
NebEvSpecTSPer
cel, PER N1 amb TS1, després N2
2.-
PER A N1
Creixent/ Disminució N2
NebEvSpecTSOrage
cel, inicialment amb N1, TS1 i tempestes de tro, després N2
2.-
cel N1 amb TS1 i
tempestes a N2
VentSecteur
vent, FF1, en general DD1
Vent FF1 de secteur DD1 dominant
DimForce
vent, DD1, al principi FF1, després FF2
2.-
FD1 F1 Habiti/
FF2 Avancez
Pass_var_inm
vent, variable, FF1, DD2 temporal, FF2
Vent variable FF1 passagerement FF2 DD2
vent variable FF1
passatger FF2
Taula . Conceptes moleculars realitzats en basc, francès i castellà.

El projecte es troba actualment en les últimes fases de desenvolupament. El següent pas és una prova massiva per a analitzar possibles errors en el sistema. A continuació realitzar els canvis necessaris i l'avaluació final. No obstant això, l'adaptació realitzada està ja integrada en el sistema de l'INM i cada dia s'ofereixen les previsions meteorològiques de les comunitats de l'estat espanyol en la web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.

A més de l'escriptura telegràfica de l'objectiu general, la realització de prediccions de propòsit especial (per a platges, muntanyencs, esquiadors...) i l'elaboració d'escriptures més riques (per exemple, la introducció de verbs amb frases completes) serien passos factibles a mitjà termini. Aquest tipus de versions completes s'han realitzat en francès i s'utilitzen en l'actualitat. De moment bastaria amb analitzar la utilitat del sistema desenvolupat per al basc, i si posteriorment es detectés la necessitat, llavors caldria abordar l'organització de les millores esmentades.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila