Giza itzultzailearen lanaren kalitatea, zalantzarik gabe, hobea eta aberatsagoa izango da beti, baina gaur egun posible da, zenbait teknika automatiko erabiliz, meteorologia bezalako arlo zehatz eta tekniko batean dokumentuak sortzea.
Artikulu honetan, metereologiaren arloan testu-sorkuntza eleanitza darabilen Multimeteo sistema interaktiboa aurkezten dugu, baita bertan euskarazko sorkuntzarako egin dugun egokitzapena ere. Garatutako sistemak egunero eskaintzen ditu eguraldi-iragarpenak web helbide honetan: http: //www.inm.es/wwi/Multimeteo/Multimeteo.html
Testuen sorkuntza automatikoaz baliatzen ez den arren, eguraldi-iragarpenak automatikoki itzultzen dituen sistema bat aipatu behar da hemen. Montrealgo TAUM taldeak sortutako METEO sistema izan da inoiz lortu den itzulpen-sistemarik arrakastatsuena. Egunero-egunero oso antzekoak ziren itzulpen aspergarriak egiteko itzultzaileak aurkitzea zaila zen, eta Kanadako zerbitzu meteorologiko ofiziala hasi zen bide automatikoak ikertzen. Lortu zuten METEO sistema hura buletin meteorologikoak itzultzen ibili da 1977tik hona, ingelesetik frantsesera, eta egiten duen itzulpenaren % 80 erabat zuzena da. Hala ere, meteorologiaren inguruan lortu zen arrakasta ez da hedatu, sistema beste gai batzuetara egokitu arren ez baita lortu kalitate-maila bereko emaitzik. Nonbait, eguraldi iragarpenen esparruak egokitasun berezia du horrelako prozesu automatikoei begira.
Kanadan ere 1993an martxan jarri zen Forecast Generator (FoG) lan-ingurunea. Sistema horretan meteorologoak editore grafikoa erabiltzen du datu meteorologikoak erakusten dituen mapa egokitzeko, eta ondoren, sistemak automatikoki sortzen du eskualderako iragarpen meteorologikoa ingelesez eta frantsesez.
1995. urtean Frantziako Meteorologia Zerbitzuak (Meteo France) MultiMeteo proiektua bultzatu zuen eguraldi-iragarpenak hainbat hizkuntzatan argitaratu ahal izateko. Horretarako, elkarlanean hasi zen Espainiako Instituto Nacional de Meteorología -rekin (INM), Belgikako Royal Meteorological Institute -rekin (RMI), Austriako Zentralanstallt für Meteorologie und Geodynamik -arekin (ZAMG) eta sorkuntza linguistikoan adituak ziren bi enpresekin: Parisen egoitza duen Lexiquest eta Madrilgo CL Servicios Lingüísticos . Alemaniako meteorologia-zerbitzua (DWD) ere hasieran elkartu zitzaien, baina utzi egin zuen geroxeago.
Elkarte horiek “ Multilingual Production of Weather Forecasts ” deituriko proiektua aurkeztu zuten, eta Europako Batasunaren finantzazioa lortu zuten. Sistema lau hizkuntzetarako (frantsesa, ingelesa, gaztelania eta alemana) garatu zen. 1999ko otsailean egin zen ebaluazioaren emaitzak oso positiboak izan ziren.
2000. urtean INMk eta Lexiquest -ek akordio bat lortu zuten sistema lau hizkuntza gehiagotara zabaltzeko: nederlandera, katalana, galegoa eta euskara. Euskarara zabaltzeaz Donostiako Informatika Fakultateko Ixa Taldea eta UZEI Terminologia Zentroa arduratu izan gara, eta memento honetan proiektuaren garapen-fasea bukatzear gaude.
Datu meteorologikoak jasotzeko bi iturri erabiltzen dira: lurrazaleko datu-bilketa eta espaziokoa. Lurrazaleko datuak meteorologia-behatokietanhartzen dira; horietan, une oro neurtu eta jasotzen dira atmosferaren egoera deskribatzen duten aldagai fisikoak. Espaziotik ere lortzen dira beste datu batzuk: satelite meteorologikoek, METEOSAT satelite geoestazionarioak eta TIROS-NOAA serieko satelite polarrak etengabe aritzen dira informazioa bidaltzen.
Jasotako datu numeriko guztiak eredu matematiko konplexuen bidez prozesatzen dira. Prozesu automatikoek aldagai fisikoek hurrengo egunetan izango duten bilakaera simulatzen dute eta horrela iragarpen meteorologikoetarako datu-matrizeak sortzen dituzte. Meteorologoak orduan aukera du datu-matrize horietan ukituak egiteko, alegia, bere eskarmentua erabiliz aurreikuspena osatu eta biribiltzeko. Ondorio gisa, 1. taulan ikusten dugun bezala, matrizeek hainbat ordutarako (3 orduko epeak INMren sistemaren kasuan) tenperatura (Te), haizearen norabidea (DD) eta indarra (FF), hodeiak, euria eta abarrei buruzko datuak azaltzen dituzte. Horrelako matrize bat lortzen da mapako puntu bakoitzerako.
Datu horiekin meteorologoek eskuz sortzen dituzte eguraldi-iragarpenak. Lan hori oso luzea eta garestia suertatzen da, batez ere iragarpen bakar batetik hainbat bertsio egin behar denean hizkuntza askotan edo estilo ezberdinetan (iragarpen orokorrak, hondartzetakoak, itsasokoak, mendikoak, erkidegoka, probintziaka...).
Hortxe kokatzen da MultiMeteoren interesa. Horren helburua ez da meteorologoen lana ordeztea, horien eginbeharretan modu interaktiboan laguntzea baizik, horrela iragarpenak hainbat hizkuntza eta estilotan zabaldu ahal izateko. Horrez gain, mapako toki askotarako iragarpenak egiteko aukera ere ematen du.
Teknika honek lehenbizi, sorkuntza automatikoaren bidez, zirriborro bat sortzen du, agian guztiz osatu gabe dauden sarrera-datuetatik abiaturik. Testua hainbat hizkuntzatan sortzeko ahalmena badu ere, meteorologoari, zuzenketa-lanetan aritzeko, bere ama hizkuntzan soilik eskaintzen zaio, noski. Meteorologoak testu-zati batean zuzenketarik egin nahi badu, aldatu nahi duen zatian klik egin beharko du. Hor, gero zenbait aukera eta modifikatzaile alternatibo eskainiko dizkio “pop-up” menuak, eta horien arteko bat aukeratuz zuzenketa modu erosoan egingo du. Egindako aldaketak kontuan hartuta, sistemak hizkuntza guztietan sortuko ditu iragarpen-testuak.
Teknika honen abantailak ondokoak dira: bizkortasuna (hizkuntza bakoitzean testu bakoitza sortzeko 2 segundo inguru behar dira; giza itzultzaile batek 10 minutu inguru behar ditu); sorkuntzaren bidegarritasuna, nahiz eta daturen bat oraindik jaso gabe izan, sortutako testuen kalitate handia (batzuetan giza ukitutxoekin); mantentzeko eta moldatzeko erraztasuna; eta azkenik, giza erabiltzaileek onartzen dutela (meteorologoei ez die lanpostua kenduko, hizkuntza arrotzetan idazten lagunduko baizik).
MultiMeteok bi modutan egiten du sorkuntza:
Eguraldi iragarpena *IS *CO. *MO *FD.
Bertako ordua: *LH.
Iragarpenaren balioa: *TT.
non:
Sistemak erabiltzen duen sorkuntza-motorra 1994an garatu zen frantsesez gutun komertzialak automatikoki sortzeko. 1995ean ingelesera zabaldu zen eskuliburu teknikoak itzultzeko prototipo batean integratuta. Eta urte berean baita ere, “ Multilingual Production of Weather Forecasts ” proiektuan integratu zen buletin meteorologikoen sorkuntzan hizkuntza eta funtzionalitate berriak gehitzeko (sorkuntza interaktiboa eta ezagutza estilistikoen kudeaketa).
Sistemaren arkitektura 2. irudian ikus daiteke. Lehenengo fasean datu meteorologikoen basea eskuratu eta birformateatzen da, sorkuntza-moduluak erabili ahal izateko moduan uzteko. Gero sorkuntza-moduluaren zeregina bitan banatzen da: planifikatu eta gauzatu.
Planifikazioak kontzeptu eta estiloen ezagutza-baseak (EB) erabiltzen ditu eta beste bi fasetan banatzen da:
Gertaera egoera meteorologikoari edo egoeraren eboluzioari lotutako objektu kontzeptuala da. Gertaerak bi motatakoak dira: atomikoak eta molekularrak.
Gertaera atomikoak eboluziorik gabeko parametro meteorologiko bat adierazten du, balio bakar bat lotuta duelarik ( Value atributua). Adibidez, zeru estalia adierazten duen gertaera atomikoa honako hau da:
Event_CloudCovering4: Event {ClassCloudCovering_code4 ondoko kontzeptu sinpleen multzoa da: Overcast, NoSun eta VeryCloudy-Overcast . Kontzeptu horietako bakoitza hizkuntza bakoitzean termino batekin lotuta dago.
Gertaera molekularrak parametro bat baino gehiago adierazten du. Adibidez, haizeari buruz ari garenean indarra, norabidea eta eboluzio-datuak izan ditzakegu. Balio bat baino gehiago eraman ditzakete ( Value0 , Value1 , etab. atributuak), bai eta balio horiek biltzeko modua zehazten duen operadore bat ( Operator atributua). Adibidez, zerua hodeirik gabe egotetik estalita egotera deskribatzeko gertaera molekularra hauxe da:
GrowingCloudier_Min0: Event_mol {Gertaera molekular hori bi gertaera atomiko eta operadore baten bidez adierazten da. Time - representation gertaerak denboran kokatzeko balio du (orainaldia, lehenaldia edo etorkizuna) eta periodoa adierazten du (eguna, goiza, arratsaldea, gaua...).
Planifikazio-moduluaren irteeran, gertaera atomiko bakoitzerako eta gertaera molekularretako Operator atributu-klase bakoitzerako kontzeptu bat hautatzen da. Gainera, beste atributu batzuk gehi daitezke (automatikoki edo meteorologoarekin elkarrekintzan): probabilitatearen indizea, fasea, periodoa...
Lortutako kontzeptuak hizkuntza bakoitzean linguistikoki gauzatzeko modulua Esanahi - Testu teorian (Mel’cuk 1988, Polguère 1988) oinarrituta dago. Ezagutza-base linguistikoa erabiltzen da fase honetan, eta bost etapatan banatzen da: aurredenotazioa, semantika, sintaxi sakona, azaleko sintaxia eta morfologia.
MultiMeteo sistema euskarara zabaltzeko lan konputazionala IXA taldeak garatu du eta lan terminologikoaz UZEI arduratu da. Galegora eta katalanera egin diren egokitzapenak gaztelaniako bertsiotik abiatuta egin dira, eta batez ere lexikoa landu behar izan dute, sintaxian eta morfologian aldaketa handirik ez baitzen behar. Euskararako, berriz, gaztelaniatik (eta zenbaitetan frantsesetik) abiatu bagara ere, esaldien egitura gehienak aldatu behar izan dira, eta morfologia-mailako deklinabide-markekin lan berezia egin behar izan dugu.
Hiru fasetan ekin genion lanari:
Egokitzapena hiru azpifasetan egin genuen: aurretik gertaera atomikoak landu (adibidez, “zerua, estalia”), gero errazak ziren gertaera molekularrak (adibidez, “haizea, ahula, iparraldekoa”), eta azkenik zailtasun bereziak zituzten gertaera molekularrak (adibidez “zerua, hasieran estalia, euriarekin, gerora oso estalia aldi baterako”).
Egokitzapeneko fase bakoitzean, aurretik azterketa linguistikoa egin genuen, ondoren ezagutza-basean sartu beharreko informazioaren azterketa eta diseinua, gero gertaera bakoitzerako adibide adierazgarri baten informazioa sartu eta probatu, eta azkenik, gertaera-mota bakoitzerako aukera guztiak sartu eta probatu.
Hauek dira egin dugun egokitzapenaren ezaugarri nagusiak:
Aurrerago sistema beste estilo batzuekin zabaldu nahiko balitz, deklinabide-kasu gehiago erabili beharko liratekeenez, hiztegian kasu horiek sartu beharko genituzke. Ikus dezagun, adibidez, “euri” hitzaren hiztegiko sarrera:
BA_Euri1 : LexemeNomBA {3. taulan, zenbait kontzeptu atomiko euskaraz nola gauzatu diren ikus dezakegu (erreferentzia gisa izan dugun gaztelaniazko eta frantsesezko gauzatzea ere idazten dugu konparatzeko).
4. taulan, berriz, zenbait kontzeptu molekular nola gauzatu diren ikus dezakegu. Aldagaiek, adierazten direnean, gertaera horren balioak adierazten dituzte: N aldagaiak hodeien egoera (oskarbia, hodei gutxikoa, estalia...); DD aldagaiak haizearen norabidea (iparraldekoa, hego-mendebaldekoa...); FF aldagaiak haizearen indarra (moderatua, indartsua,...); TS aldagaiak prezipitazioak (euria, zirimiria...), PER periodoa (goizez...)...
Proiektua, gaur egun, garapeneko azken faseetan dago. Sisteman egon daitezken akatsak aztertzeko proba masiboa dugu hurrengo urratsa. Ondoren, beharrezkoak diren aldaketak eta azken ebaluazioa egin. Hala ere, egindako egokitzapena dagoeneko INMren sisteman integratuta dago, eta egunero-egunero estatu espainoleko erkidegoetako eguraldi-iragarpenak eskaintzen dira http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html web helbidean.
Helburu orokorreko idazkera telegrafikoaz gain, helburu bereziko iragarpenak (hondartzetarakoak, mendizaleentzakoak, eskiatzaileentzakoak...) egitea eta idazkera aberatsagoak lantzea (adibidez, aditzak sartuta esaldi osoak eskaintzea) pauso egingarriak lirateke epe ertainean. Frantseserako egin dira horrelako bertsio osatuak, eta erabiltzen dira gaur egun. Euskararako oraingoz aski litzateke garatu den sistemaren erabilgarritasuna aztertzea, eta geroago beharra nabarituko balitz, orduan ekin beharko litzaioke aipatu hobekuntzak antolatzeari.