Irakurri beharrean, entzun

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Gizakien arteko komunikazio modu zaharrena eta ohikoena hizketa bidezkoa den arren, ordenagailuekiko elkarrekintza, tradizioz, idatzizkoa edo bisuala izan da. Azkenaldi honetan, baina, makinekiko ahots bidezko komunikazioa gero eta gehiago ari da hedatzen, eta hizketa automatikoki gero eta hobeto tratatzeko gai dira. Hemen ere ari gara horretan lanean, eta Elhuyar aldizkaria eta Zientzia.net, irakurri beharrean, entzun egin daitezke orain.
irakurri-beharrean-entzun
Arg. SEREZNIY/123RF

Ahots-teknologiak berriki arte asko erabili ez badira, ez da izan beharrik ez zegoelako, baizik eta teknologia oraindik nahiko heldua eta aurreratua ez zegoelako. Beharrak eta aplikazio posibleak ugariak izan dira betidanik.

Erabilera posible horietatik burura lehenengo etortzen zaiguna gailu digitalekiko interakzioa da. Ordenagailu, telefono edo tabletari aginduak teklatuan idatziz edo saguaz klik eginez eman beharrean, erosoagoa eta azkarragoa izan daiteke, kasu askotan, ahoz esanda egitea. Eta makinaren emaitza jasotzeko ere, pantailan irakurri beharrean, maiz erosoagoa izan daiteke entzutea. Ahots bidezko interakzioaren adibide dira gailu mugikorretan gero eta gehiago ikusten diren Siri moduko elkarrizketa-agenteak (2012ko urtarrilean hitz egin genizuen horiei buruz).

Pertsonen arteko komunikazioan ere lagundu dezakete. Itzulpen automatikoarekin konbinatuta, ahots-teknologiekin ahots-itzultzaileak egin daitezke.

Beste aplikazio bat informazioaren kudeaketa da. Idatziz dagoen informazioa erraz eta azkar maneiatzen dute ordenagailuek, eta tresna oso baliagarriak egiten ahal dira, bilatzaileak esaterako. Baina informazioa audio-grabaketak direnean, makinak ez dira gai ulertzeko, eta transkribatu egin behar dira. Aldiz, ahots-teknologien bidez hizketa ulertzeko gai badira, makinek berek bihurtuko lukete ahotsa testu, eta audio-

fitxategiak erraz indexatu ahal izango lirateke bilaketarako (horrela ari da, adibidez, BBC bere historia guztiko irratiko audio guztiak bilaketarako katalogatzen), edo filmak automatikoki azpititulatu.

Ahotsaren sintesia

Ahots-teknologien barruan, arlo garrantzitsu bat ahots-ezagutzarena da; baina artikulu honetan kontrako norabideko teknologian zentratuko gara: ahots-sintesian, ingelesezko TTS (Text To Speech edo testutik hizketara) izenaz ere ezaguna. Teknologia horrek hizketa baten audioa sortzen du testu batetik, ahots sintetiko edo artifizialez, molde ahalik eta naturalean. Eta hori, neurri batean, nahiko lortua dago, intonazio neutro baterako behintzat. Bitxia bada ere, zientzia-fikziozko film zaharretan agertzen ziren robotak makina oso adimendunak ziren, eta ez zuten arazorik esaten zitzaiena ulertzeko; berek hitz egin, ordea, oso modu artifizial eta robotikoan (jakina) hitz egiten zuten. Baina errealitatean kontrakoa gertatu da: gaur egun nahiko ongi hitz egin dezakete makinek, ulertu, baina, ez hain ongi, eta adimendun izateko tarte handia falta da oraindik...

Ahots-sintesi emozioduna ere lantzen ari dira ikertzaileak, hau da, ahots sintetikoak haserrea, poza, harridura, pena eta horrelako emozioak ere adieraztea. Izan ere, kasu askotan ez da nahikoa gauzak intonazio neutroarekin esatea, adibidez, filmak-eta automatikoki bikoiztu nahi badira.

Sortzen den ahots sintetikoak naturala iduri dezan, benetako pertsonen grabaketa asko egin behar izaten dira, eta, hala, pertsona horren ahots bera duen hizketa lortzen da, benetako pertsona batek esandakoa dela ematen duena. Baina horrek badu arazo bat, ahots ezberdin asko behar direnean ez baitu balio (goian aipatutako filmen bikoizketarako, adibidez). Horregatik, ahotsen transformazioaren teknologia ere existitzen da, hau da, grabaketetan oinarritutako ahots sintetiko batek beste norbaitena dela eman dezan lortzeko teknologia. Hori erabiltzen da, adibidez, hitz egiteko gaitasuna galdu duen jendearentzat bere ahotsaren antza izango duen ahots-sintetizadoreak egiteko.

Euskarazko ahots-sintesia Elhuyar aldizkaria eta Zientzia.net entzuteko!

Arestian esan dugu ahots-teknologiak gaur egun nahikoa aurreratuta daudela eta gero eta gehiago erabiltzen direla. Teknologia horiek, baina, hizkuntzaren araberakoak dira (beharbada hizlariaren detekzioaren salbuespenarekin), eta ez daude garapen-maila berean hizkuntza guztietarako. Beti bezala, teknologiok oso garatuta daude hizkuntza gutxi batzuetarako (betikoak: ingelesa, gaztelania, alemana, txinera...), eta gainerako gehienetarako askoz atzerago.

Garapen onena duten hizkuntza horien mailan ez badago ere, euskara ez da, zorionez, azkeneko bagoian doazen horietakoa. Urteak daramatzagu euskararentzako ahots-teknologiak lantzen. Eta lan horretan aitzindari eta erreferente EHUko Aholab ikerketa-taldea dugu. Aipatutako teknologia guztiak landu dituzte eta lantzen ari dira.

Aholabek euskararentzat aurreratuen daukan teknologia, jakina, ahots-sintesiarena da. Oso kalitate oneko ahots sintetiko neutroa lortzen dute, aplikazioetan erabiltzeko modukoa. Horregatik, Aholabekin elkarlanean, Elhuyarreko Hizkuntza eta Teknologia unitateak webguneak irakurri beharrean entzuteko teknologia garatu du ahots-sintesi bidez.

Izan ere, jada ez dugu soilik mahai gaineko ordenagailuetatik nabigatzean webean. Gero eta gehiago ibiltzen gara Interneten gure smartphone eta tabletetatik. Eta horietan, webguneak irakurtzeko baldintzak ez dira sarri oso egokiak: pantaila txikia da (batez ere, telefonoetan), mugimenduan joaten gara maiz (oinez, trenean, autobusean...) eta abar. Aldiz, horrelako gailuetan, oso ohituta gaude edukia (musika, podcast-ak...) entzungailuez entzuten. Horregatik, oso interesgarria iruditu zitzaigun webguneak entzun ahal izateko teknologia hori garatzea. Erabiltzailea ordenagailu edo gailu mugikorrean edukia irakurri ordez entzuten joan ahal izango da, bitartean beste zerbait egiten duelarik.

Oraingoz, Elhuyar aldizkariaren webgunean eta Zientzia.net-en jarri dugu teknologia hori. Bertako eduki batean gaudela (artikulu bat, erreportaje bat...), barra bat agertuko zaigu, eta han “play” itxurako botoi tipiko bat. Hori sakatuta, artikulua entzuten hasiko gara. Entzuketa esaldiz esaldi egiten da, eta entzuten ari garen esaldia markatuta agertzen da. Era berean, entzuketan nabigatu ahal izateko botoiak ere badaude (aurreko edo ondoko esaldira, aurreko edo ondoko paragrafora, edo nahi dugun tokira joateko). Gainera, ahotsa (emakumezko eta gizonezko baten artean), bolumena zein abiadura alda ditzakegu. Horrez gain, aldizkariko zenbaki batean bagaude, entzuteko botoia sakatuta, zenbaki horretako artikulu guztiak entzun ahal izango ditugu bata bestearen atzetik; hori oso interesgarria izan daiteke kotxean gidatzen-edo bagoaz bidaia luze samar batean, irratia entzun beharrean aldizkari osoa entzun baitezakegu. Azkenik, elkarrizketetan, aukeratutakoa ez beste ahots batekin irakurtzen dizkigu galderak, galderak eta erantzunak bereiz ditzagun. Eta hori guztia, HTML5 teknologia estandarra erabiliz egin da (HTML5ez 2010eko otsailean hitz egin genizuen).

Aukera ederra, beraz, euskarazko ahots-teknologiak ezagutu eta baliatzen hasteko. Probatu, eta ikusi!

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila