Fa uns mesos, amb motiu de la creació d'una base de dades de veu en basca, Telefónica va convocar l'enregistrament de 10.000 veus de bascos. Per a això es va posar un número de telèfon gratuït al qual el llamante havia de repetir frases i números que deia un ordinador. El que anava a dir l'ordinador va ser preparat pel Departament de Filologia Basca de la UPV/EHU amb la intenció de recollir tots els sons habituals en basc. Per a això es va analitzar un macrotexto proporcionat per UZEI. A pesar que els responsables del projecte necessitaven almenys 5.000 crides, van rebre prop de 19.000, a pesar que van resultar útils –que repetieron tot el que havien dit l'ordinador– 11.200. El projecte va comptar amb la participació d'EITB, que va gravar tot el que deia l'ordinador el personal local i va realitzar una campanya de captació de veu.
La informació recollida en les trucades telefòniques es va recollir en Leioa, Departament d'Electricitat i Electrònica de la Universitat del País Basc. La informació digital recopilada ara ha de ser processada i posteriorment constituirà la base de dades. Aquesta base de dades que es crea es podrà utilitzar amb els coneixedors de la veu, per la qual cosa podran continuar investigant en aquesta matèria. Per part seva, la Facultat de Filologia també podrà aprofitar la informació rebuda per a realitzar recerques sobre la fonologia del basc actual. Si s'avança en el camí previst, aquest projecte permetrà en breu accedir a nous serveis en basc: marques telefòniques per veu, telelectura de comptadors, validació de targetes de crèdit, banca electrònica, compres telefòniques….
El que sembla una qüestió de futur són el pa de cada dia en el Departament d'Electricitat i Electrònica de la UPV, ja que l'equip de Coneixement de la Veu dedica hores i hores a això. Els ordinadors arribaran a parlar, sembla que no hi ha dubte d'això. Com se'ls fa parlar? Com se'ls ensenya?
El nostre cervell construeix un missatge en el seu interior seguint les regles del llenguatge. A continuació, utilitzant el sistema de creació de la veu del cos, produeix una ona molt rica en harmònics, el senyal de veu. Aquest senyal acústic té diverses característiques: energia, harmònics reduïts en la banda de freqüència de 7-8 kHz, freqüència bàsica, etc. En aquest senyal hi ha sorolls. Aquests sons, segons les regles del llenguatge, constitueixen unitats lèxiques. Cada soroll té les seves característiques acústiques. Per tant, aquests elements, sons i unitats lèxiques que apareixen codificats en el senyal de veu, han de ser descodificats per a conèixer el missatge generat.
Per a poder utilitzar el senyal de veu en l'ordinador és necessari mostrejar-la. Per a això, el senyal analògic es converteix en digital. A continuació es parametritza el senyal digital per a reduir la informació redundant de la veu, és a dir, s'extreuen les característiques més característiques del senyal: energia, freqüència bàsica, certs paràmetres relacionats amb les freqüències, etc.
El reconeixement de la veu es realitza mitjançant dues tècniques, una basada en paraules aïllades o silencioses, i l'altra és la denominada membrana contínua. En tots dos casos, perquè el sistema entengui el missatge, ha de disposar d'un descodificador de models acústics: en el cas de paraules aïllades s'utilitzen models de paraules i en el cas de la llengua contínua, models de sons i unitats lèxiques.
En el primer cas, el funcionament del sistema és molt senzill: es compara el senyal amb els models de paraules que s'han estudiat i es tria el model de paraula més semblant. Quant al coneixement del llenguatge continu, el procés es divideix en dues fases: la descodificació acústic-fonètica i la modelització del llenguatge. En la fase de descodificació acústic-fonètic s'obté la cadena de sons del senyal de veu. A continuació, en la fase de modelització del llenguatge, s'obtenen les unitats lèxiques i, utilitzant regles sintàctiques i semàntiques, es descodifica el missatge que conté el senyal. En aquest moment ja l'ordinador és capaç de conèixer l'idioma.
El procés es duu a terme mitjançant diferents mètodes matemàtics. Quant als models acústics, les aproximacions estructural-estocàstiques, models ocults de Markov. D'altra banda, per a aprendre models i conèixer el missatge, altres algorismes: Baum-Welch, Viterbi.
I és que perquè el sistema funcioni correctament ha de conèixer cada soroll. Per tant, ha d'aprendre diferents mostres de cada so, ja que els sons produïts per una i una altra persona són diferents. Per això, en aquesta fase de coneixement automàtic del llenguatge és imprescindible comptar amb una gran base de dades, ja que quants més parlants hi hagi, més característiques podrà recollir i conèixer el sistema. És a dir, perquè el sistema pugui conèixer cadascun dels sons necessita una gran quantitat de mostres de cadascun d'ells.
Fins avui, i també en la UPV, s'ha treballat majoritàriament amb models en castellà, però el treball del grup de reconeixement automàtic de la llengua arribarà aviat, ja que des de fa anys s'està treballant majoritàriament amb el basc. Des del punt de vista de les característiques de la llengua, el basc pot tenir peculiaritats. "Quant als sons, diu Karmele Lopez d'Ipiña, integrant del Grup de Reconeixement Automàtic Mintzo, no sembla que sigui més difícil que la resta de llengües, perquè en això no hi ha res estrany. Quant al lèxic, el basc és especial, ja que la llengua és adhesiu. Per exemple, per a nosaltres la paraula casa és casa, però per a ells el que és de casa —la paraula no canvia— per a nosaltres és de casa, i això és una paraula nova. El basc té un gran futur en el camp del coneixement oral automàtic, sobretot per l'interès que ha despertat en la comunitat científica gràcies a les seves característiques específiques".
La base de dades de Telefónica ha tingut eco, però en el Departament d'Electricitat i Electrònica de la UPV/EHU de Leioa han col·laborat amb el suport del Departament de Filologia Basca de Vitòria-Gasteiz i amb la subvenció del Govern Basc. "Des de fa molts anys el nostre grup va començar a desenvolupar un sistema de reconeixement automàtic de la llengua basca. En concret, s'han dissenyat dues bases de dades de veu, una per al seu ús en aplicacions telefòniques i una altra per al desenvolupament de sistemes de qualsevol tipus. Amb això, pel que fa a les bases de dades fonètiques, hem aconseguit equiparar-les a altres llengües. Si ens fixem en les persones que treballen en aquest camp en el món, podem dir que no estem tan malament, estem en un parell".