Nova síntesi neuronal de parla d'Elhuyar

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En 2014, Elhuyar va llançar un nou servei tecnològic: la síntesi de la parla. Aquesta tecnologia que permet convertir textos en àudio ha estat utilitzada des de llavors pels nostres clients per a oferir diferents serveis. Les tecnologies lingüístiques i de la parla han avançat molt gràcies a la tecnologia de les xarxes neuronals, i en Elhuyar hem desenvolupat una tecnologia neuronal pròpia de síntesi de parla, amb major qualitat i noves possibilitats. Coneguem el nou servei web de síntesi de parla neuronal.

elhuyarren-hizketa-sintesi-neuronal-berria
Ed. Jackie Niam/Shutterstoc.com

Dins de les tecnologies de la parla predominen dues tecnologies: ASR (Automatic Speech Recognition) o coneixement de la parla, que consisteix en la transcripció o conversió d'un àudio de parla en text, anomenat TTS (Text-To-Speech) o síntesi de la parla, que consisteix en la lectura o conversió d'un text en àudio. Des de fa uns anys treballem per al basc en el centre d'intel·ligència artificial Orai, creat per Elhuyar, i, sobre la base de tots dos, Elhuyar socialitza els serveis en basc. Quant a l'ASR, l'any 2020 vam posar en marxa el servei de transcripció, subtitulació i dictat Aditu .eus. Quant a la TTS, des de 2014 existeix el servei de conversió de text en línia a veu i la pàgina web.

Aquest servei estava basat en la tecnologia Aho TTS desenvolupada pel grup de recerca Aholab de la Universitat del País Basc, que es va desenvolupar amb la millor lògica tecno-tècnica de l'època i era l'únic que funcionava en basc. En aquests anys, la tecnologia s'ha utilitzat en diversos llocs i casos: per a permetre escoltar el contingut d'algunes webs (Elhuyar aldizkaria, Zientzia.eus, EITB.eus, Sarean .eus, el servei per a persones amb discapacitat de la UPV, perquè els professors puguin compartir material i recursos desitjats, la pàgina web Amarauna del Departament d'Educació...), per a ajudar al fet que els alumnes i alumnes puguin expressar en basc les seves paraules en el diccionari digital.

Nova tecnologia neuronal TTS

Des de llavors, totes les tecnologies lingüístiques i de parla, inclòs el TTS, han passat a funcionar a través de la tecnologia coneguda com a xarxes neuronals profundes (deep neural networks) o aprenentatge profund (deep learning), que ofereix uns resultats molt millors. I si bé es deia llavors que la parla que creàvem sintèticament era bastant natural (i així era per als estàndards de llavors), la qual cosa avui s'aconsegueix amb les xarxes neuronals és molt més natural, des del llenguatge gairebé autèntic fins a l'infinit.

Doncs bé, al llarg dels últims anys, en Orai hem estat desenvolupant una síntesi neuronal de parla en basca, i ja tenim el nostre propi sistema. És de molt bona qualitat el que sembla un autèntic parla en la pronunciació, l'entonació, la prosòdia... A més, amb les tecnologies actuals podem fer coses que abans costava més i tenir noves funcionalitats. Per exemple, en el sistema anterior, per cada veu diferent que es pretenia crear, s'entrenava un model i es necessitaven bastants enregistraments. Avui dia, no obstant això, en un mateix model podem tenir moltes més veus i amb molt menys temps d'enregistrament, per la qual cosa podem crear més fàcilment noves veus sintètiques.

A més, es poden crear models multilingües que hem creat en sis idiomes: basc, castellà, francès, anglès, català i gallec. A través d'elles es pot aconseguir que els enregistraments es facin amb una persona en un idioma determinat (diguem, basc), però després el model entrenat amb aquests enregistraments sigui capaç de fer una síntesi en un altre idioma (diguem, ingelesa, o francès, o català) amb la veu d'aquesta persona! És a dir, pots posar a una persona “parlant” en una altra llengua, sense tenir ni idea d'aquesta llengua!

Servei Web opcional multiús

Enguany Elhuyar ha posat en marxa el servei web basat en la nova tecnologia neuronal en https://ttsneuronala.elhuyar.eus/. Entre les sis llengües esmentades i en cadascuna d'elles podem triar entre dues o quatre veus diferents, donar un text i convertir-lo en una parla. La qualitat de les veus la podem comprovar a través de la caixa de text de la web.

A més, si volem, també podem crear la nostra veu personalitzada, que només nosaltres podrem utilitzar. Per a això, n'hi ha prou amb gravar uns deu minuts llegint unes frases i després podrem fer una síntesi de parla amb la nostra veu en l'idioma gravat o en qualsevol altre. Els exemples de veus personalitzades així creades es poden escoltar en les pàgines web de la revista Elhuyar o de Goiena (en el cas d'Elhuyar també es poden passar a altres opcions).

Existeixen diverses maneres d'utilitzar la tecnologia. El més senzill i senzill és a través de la caixa de text, on pegarem el text desitjat i crearem àudio. També oferim una API que ens permet accedir a la nostra aplicació o servei. I si en lloc de llegir una pàgina web es vol donar l'oportunitat d'escoltar-la, també oferim el codi d'una barra reproductora, que s'insereix fàcilment en la web.

Els clients anteriors al servei TTS ja s'han migrat a nous serveis i noves veus, i també s'estan beneficiant de noves empreses (Tokikom, Skura, Batasuna, Ulma, Ibil, Naiz...), moltes d'elles amb veus personalitzades.

I quin ús té realment la tecnologia TTS, per a què estan utilitzant aquests clients? Perquè té molts usos possibles. Una de les més habituals és fer les pàgines web més accessibles i/o accessibles mitjançant la barra reproductora (per exemple, caminant en el mòbil o en transport públic). A través de l'API, i en combinació amb l'ASR, també es permet la interacció amb màquines o apps a través de la parla. Utilitzant la caixa de text podem crear un podcast audible sense necessitat de gravar-ho directament del text, o crear veus en off per al nostre audiovisual. En un futur pròxim, també serà possible realitzar el doblatge (semiautomàtic), afegint el TTS al nostre servei de subtitulació i traducció automàtica Aditu.

De moment, la nostra tecnologia TTS crea una parla neutra, que és suficient per a llegir el contingut d'un mitjà de comunicació o pàgina web, per a parlar una màquina o per a veus en off. Però en Orai continuem investigant en moltes adreces, per a tenir també veus emocionals, per a poder parametritzar i modelar a la carta la parla que es produeix (velocitat de cada interval, entonació, bolumena...), per a poder realitzar una síntesi imitant una veu amb una petita mostra sense necessitat d'entrenar models propis mitjançant enregistraments... Totalment observables, perquè aquest tipus d'eines siguin presents també en un món cada vegada més tecnològic i tecnològic.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila