En lloc de llegir, escoltar

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Encara que la forma més antiga i habitual de comunicació entre els éssers humans és mitjançant la parla, la interacció amb els ordinadors ha estat, tradicionalment, escrita o visual. En els últims temps, no obstant això, la comunicació per veu amb les màquines s'està estenent cada vegada més i són capaces de tractar millor la parla automàticament. Aquí també estem treballant en això, i la revista Elhuyar i Zientzia.net, en lloc de llegir-la, ara es poden escoltar.
irakurri-beharrean-entzun
Ed. SEREZNIY/350RF

Si les tecnologies de veu no s'han utilitzat fins a dates recents, no és perquè no hi havia necessitat de ser, sinó perquè la tecnologia encara no estava bastant madura i avançada. Les necessitats i possibles aplicacions han estat sempre nombroses.

El que primer ens ve al capdavant d'aquests possibles usos és la interacció amb dispositius digitals. En lloc de donar les ordres a l'ordinador, telèfon o tauleta en el teclat per escrit o fent clic amb el ratolí, pot resultar més còmode i ràpid en molts casos fer-ho de manera verbal. I per a obtenir el resultat de la màquina, en lloc de llegir-lo en la pantalla, sovint pot resultar més còmode escoltar. Exemples d'interacció per veu són els agents de diàleg tipus Siri que cada vegada es veuen més en dispositius mòbils (dels quals ja us havíem parlat al gener de 2012).

També poden col·laborar en la comunicació interpersonal. Combinada amb la traducció automàtica, les tecnologies de veu permeten realitzar traductors de veu.

Una altra aplicació és la gestió de la informació. Els ordinadors manegen de manera senzilla i ràpida la informació escrita i es poden fer eines molt útils com els cercadors. No obstant això, quan es tracta d'enregistraments d'àudio, les màquines no són capaces de comprendre-les i han de ser transcrites. Per contra, si són capaços de comprendre la parla a través de les tecnologies de veu, les pròpies màquines convertirien la veu en text i en àudio

els arxius es podrien indexar fàcilment per a la cerca (per exemple, BBC està catalogant tots els àudios de la ràdio de tota la seva història per a la cerca) o subtitular automàticament les pel·lícules.

Síntesi de veu

Dins de les tecnologies de veu, un aspecte important és el coneixement de la veu, però en aquest article ens centrarem en la tecnologia en sentit contrari: la síntesi de veu, també coneguda com TTS (Text To Speech) en anglès. Aquesta tecnologia genera l'àudio d'una parla des d'un text, amb veus sintètiques o artificials, en la forma més natural possible. I això, en part, està bastant aconseguit, almenys per a una entonació neutra. Curiosament, els robots que apareixien en velles pel·lícules de ciència-ficció eren màquines molt intel·ligents i no tenien problemes per a entendre el que se'ls deia, però ells parlaven d'una manera molt artificial i robòtica (per descomptat). Però en realitat ha succeït el contrari: avui dia les màquines poden parlar bastant bé, entendre, però no tan bé, i encara falta molt de marge per a ser intel·ligents...

Els investigadors també estan treballant en la síntesi de veu emocional, és a dir, que la veu sintètica expressi emocions com l'empipament, l'alegria, la sorpresa o la pena. I és que en molts casos no n'hi ha prou amb dir les coses amb entonació neutra, per exemple, si es vol duplicar el film i el film automàticament.

Perquè la veu sintètica que es crea sembli natural, és necessari fer molts enregistraments de persones reals, obtenint una parla amb la mateixa veu que aquesta persona, que sembla ser el que diu una persona real. Però això té un problema, ja que quan es necessiten moltes veus diferents no serveix (per exemple, per a doblegar les pel·lícules a dalt esmentades). Per això, també existeix la tecnologia de la transformació de les veus, és a dir, la tecnologia per a aconseguir que una veu sintètica basada en enregistraments sembli ser propietat d'una altra persona. S'utilitza, per exemple, per a elaborar sintetitzadors de veu que semblin a la seva veu per a persones que han perdut la capacitat de parlar.

Síntesi de veu en basca per a escoltar la revista Elhuyar i Zientzia.net!

Ja hem dit anteriorment que les tecnologies de veu estan bastant avançades en l'actualitat i són cada vegada més utilitzades. No obstant això, aquestes tecnologies depenen de l'idioma (potser amb l'excepció de la detecció del ponent) i no estan en el mateix nivell de desenvolupament per a totes les llengües. Com sempre, aquestes tecnologies estan molt desenvolupades per a unes poques llengües (les de sempre: anglès, castellà, alemany, xinès...) i per a la majoria de les altres molt més despenjades.

Malgrat no estar a l'altura d'aquestes llengües amb millor desenvolupament, el basc no és, afortunadament, una de les llengües que es troben en l'últim vagó. Portem anys treballant en tecnologies de veu per al basc. I en aquest treball tenim com a referent i pioner el grup de recerca de la UPV Aholkularitza. Totes les tecnologies esmentades han estat i estan en fase d'elaboració.

La tecnologia més avançada per al basc de Kontseilua, per descomptat, és la de la síntesi vocal. Obtenen una veu sintètica neutra de molt bona qualitat i que pot ser utilitzada en aplicacions. Per això, en col·laboració amb Zapore Jai, la unitat de Llengua i Tecnologia d'Elhuyar ha desenvolupat la tecnologia d'escolta a través de la síntesi de veu en lloc de llegir les pàgines web.

Perquè ja no sols naveguem pels ordinadors de sobretaula en la web. Cada vegada anem més per internet des dels nostres telèfons intel·ligents i tauletes. I en elles, les condicions de lectura de les pàgines web no són molt adequades: és una pantalla petita (sobretot en els telèfons), sovint anem en moviment (a peu, al tren, en l'autobús...), etc. No obstant això, en aquesta mena de dispositius estem molt acostumats a escoltar el contingut (música, podcasts...) amb els auriculars. Per això, ens va semblar molt interessant desenvolupar aquesta tecnologia per a poder escoltar webs. En lloc de llegir el contingut en l'ordinador o dispositiu mòbil, l'usuari podrà anar escoltar-lo mentre realitza una altra cosa.

De moment, hem posat aquesta tecnologia en la web de la revista Elhuyar i en Zientzia.net. Estant en un contingut local (un article, un reportatge...) ens apareix una barra en la qual apareix un botó típic en forma de “play”. Prement aquí, comencem a escoltar l'article. L'escolta es repeteix i la frase que estem escoltant apareix marcada. També hi ha botons per a poder navegar en l'escolta (per a anar a la frase anterior o següent, al paragráfora anterior o al costat, o al lloc que vulguem). A més, podem modificar la veu (entre una dona i un home), el volum i la velocitat. A més, si estem en un número de la revista, prement el botó d'escoltar, podrem escoltar successivament tots els articles d'aquest número, la qual cosa pot ser molt interessant si anem amb cotxe en un viatge relativament llarg, ja que en lloc d'escoltar la ràdio podem escoltar tota la revista. Finalment, en les entrevistes, ens llegeix amb una veu diferent a la triada per a diferenciar preguntes, preguntes i respostes. I tot això amb la tecnologia estàndard HTML5 (en HTML5 us parlem al febrer de 2010).

Una bona oportunitat per a conèixer i gaudir de les tecnologies de veu en basca. Prova-ho i descobreix-ho!

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila