Elhuyarren hizkuntza-teknologiak: Bilaketa eleaniztunak

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Elhuyar Fundazioko hizkuntza-teknologien I+G sailean lantzen dugun alorretako bat IR ( Information Retrieval edo Informazio Bilaketa) da, eduki digitalen kudeaketa eta bilaketa errazteaz arduratzen den informatikaren arloa alegia. Azken urteetan, horren inguruko bi teknologia gure ustetan oso baliagarriak garatzen aritu gara: Elezkari bilatzaile eleaniztuna eta Dokusare dokumentu-erlazionatzaile eleaniztuna. Berriki, biak Zientzia.net atarian inplementatu ditugu, eta uztailean aurkeztu genituen jendaurrean.
elhuyarren-hizkuntza-teknologiak-bilaketa-eleanizt
Dokusare teknologiari esker, erabiltzailea irakurtzen ari den artikuluarekin zerikusia duten beste eduki batzuk gomendatzen dira eskuineko zutabean.

Duela bi urte, aldizkari honen atal honetan bertan, Interneteko bilatzaileek izan duten eboluzioa eta etorkizunean izango dituzten ahalmen berriak aurkeztu genizkizuen. Orduan aipatzen genuen Elhuyarko hizkuntza-teknologien I+G sailean ari ginela ikertzen eduki eleaniztunean hobeto nabigatu eta bilatzeko tekniken inguruan. Teknologia horiek jada errealitate dira eta hemen zehatzago azalduko dugu zer diren eta zertarako diren erabilgarriak.

Elezkari, bilatzaile eleaniztuna

Sarean euskaraz aritzeko ohitura dugunok bi arazo nagusi izaten ditugu edukia bilatu nahi dugunean. Bata, euskarazko edukia bilatu nahi dugunean: bilatu nahi duguna izen berezia bada, edo teknikoa, edo laburra, aukera handiak daude hori bera beste hizkuntza batzuetan ere berdin esateko, eta beste hizkuntzetako emaitzak agertuko zaizkigu euskarazkoak agertu beharrean. Bestea, zerbaiti buruzko edukia bilatu nahi dugunean, ahal bada euskaraz baina ezin bada besteren batean: lehenengo bilaketa euskaraz egingo dugu; emaitza egokirik ez badugu aurkitzen (zoritxarrez maiz gerta daitekeena, euskaraz dagoen edukia ez baita nahiko genukeen bezain ugaria), beste bilaketa bat egingo dugu ongi moldatzen garen beste hizkuntzaren batean, demagun gaztelaniaz edo frantsesez, horretarako bilaketa-terminoak itzuliz (sarri batere erraza ez den kontua); eta gustura gelditzen ez bagara, ingelesera joko dugu, berriz ere hitzak itzuliz eta beste bilaketa bat eginez.

Hori ekiditeko garatu dugu Elezkari deitu dugun teknologia. Bertan, guk bilaketa bakarra egingo dugu euskaraz, eta bera arduratuko da hitzak beste hizkuntzetara itzultzeaz eta bilatu behar den tokietan bilatzeaz, gero emaitzarik esanguratsuenak bueltatzeko, dauden hizkuntzan daudela.

Tresnaren indargunea bilaketa-terminoen itzulpena da. Hiztegiak eta hizkuntza-teknologiak konbinatzen ditu itzulpen egokia emateko, eta hau ez da gai hutsala: anbiguotasunak ebazten dira ordain egokia aurkitzeko, sinonimoak baliatzen dira emaitza gehiago lortzeko baina nahi gabeko emaitzak baztertuz... Tresna oso baliagarria da kasu askotarako: edukia hainbat hizkuntzatan duten webguneetan, bilaketa hainbat webgunetan egitea ahalbidetu nahi duten atari espezializatuetan, enpresetako intranetetan eta abar. Eta goian aipatutako erabilera-adibidean abioko hizkuntza euskara bazen ere, beste edozein izan daiteke. Gainera, tresnarentzako hedatze posible bat izan daiteke beste hizkuntzetan dauden emaitzak abioko hizkuntzara itzultzea itzulpen automatiko bidez, teknologia hori ere lantzen baitugu. Existitzen diren antzeko tresnen mailan dago Elezkari, baina euskara kontuan hartzen duen bakarra da.

Dokusare, dokumentu-erlazionatzaile eleaniztuna

Komunikabideen online bertsioetan, blogetan eta eduki ugaria duten webguneetan oso ohikoa da, albiste edo artikulu jakin batean gaudela, amaieran antzeko edukietarako estekak erakustea, gaiaren inguruan sakondu ahal izateko. Esteka horiek metodo automatikoen bidez jartzen dira, baina normalean webgune horretako bertako edukirakoak izaten direnez eta hizkuntza berean egoten direnez, oso sinpleak izaten dira metodook, hitzen kointzidentzia hutsean oinarrituak.

Dokusare teknologiak hori bera egiten du, baina hainbat hizkuntzatan dagoen edukia erlazionatzeko eta antzekoenak bilatzeko gai da. Edukia hizkuntza batean baino gehiagotan duten komunikabide eta webguneek baliatu dezakete, edo kanpoko webguneetako eduki erlazionatua erakutsi nahi dutenek.

Biak Zientzia.net atarian

Dokusare eta Elezkari ikerketa proiektu gisa jaio ziren eta urteetan aritu gara haietan ikertzen eta nazioarteko kongresuetan aurrerapenak aurkezten, baina gaur egun funtzionatzen duten teknologiak dira. Elhuyar Fundazioaren Zientzia.net webgunean jarri dira martxan estreinakoz. Euskarazko zientziaren ataria izateko bokazioa du Zientzia.net-ek, eta horregatik ez ditu bere bilatzailea eta antzeko edukietarako estekak barne-edukira mugatzen. Zientziari buruzko erreferentziazko nazioarteko hainbat webgunetako edukia ere hartzen du kontuan bi kasuetan: Nature, Science , Physics World, Futurity... Hala, Zientzia.net-eko bertako edukiez gain, webgune horietako edukia atzitu eta bilatu ditzakegu, beti euskaratik abiatuta.

Hizkuntza-teknologiek eman dezaketenaren adibide bikainak dira Dokusare eta Elezkari. Teknologia horiek aurrerapauso handia dira erabiltzaileentzat eta euskararentzat. Beraz, espero dezagun etorkizunean teknologia horiek toki gehiagotan ikustea, eta horrelako teknologia gehiago eguneroko bilakatzea.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila