La parla és una de les formes de comunicació més antigues i diferenciadores que tenim els éssers humans entre nosaltres (una de les característiques que ens diferencia dels animals). Més tard va venir la comunicació escrita que, a més de la comunicació, té la capacitat de conservar el coneixement. El llenguatge és el mitjà més natural de comunicació entre la gent, però el camí que hem utilitzat les persones per a comunicar-se amb els ordinadors és escrit: li introduïm les ordres, la programació i els textos en el teclat, que utilitza els textos de la pantalla per a visualitzar els resultats. Això és així perquè els ordinadors no eren capaços de comprendre el llenguatge humà.
En els últims anys, la creació i millora dels sistemes de reconeixement de la parla ha anat ampliant gradualment els sistemes d'introducció de la parla: agents de diàleg, subtituladores automàtics, altaveus intel·ligents, sistemes de dictat... Però el basc no ha estat en aquests sistemes.
Fa un any expliquem en la revista les solucions basades en tecnologies de parla per a l'accessibilitat desenvolupades en Elhuyar: eina de lectura de pàgines web, Lector Digital, Wikispeech, Viajde... Tots ells es basen en la síntesi de la parla, és a dir, en la tecnologia que utilitzen els ordinadors per a crear la parla mitjançant el lliurament d'un text. Llavors parlàvem de com les tecnologies per al reconeixement de la parla poden contribuir a l'accessibilitat i inclusió (control d'ordinadors i altres màquines mitjançant la parla, sistemes de dictadura, subtitulat automàtic...). En altres llengües sí, però en basca no existia aquest sistema. Doncs bé, al març llancem el servei de reconeixement de la parla en basca, adequat per a l'accessibilitat i altres usos: Expert.eus
Expert és un reconeixedor de la parla basat en xarxes neuronals profundes. El seu nom és molt apropiat. El verb expert té dos sentits principals: escoltar el primer i comprendre el segon, i això és el que Expert fa, escoltar i comprendre el que li diem (perquè dóna per escrit el preu de l'escoltat). D'altra banda, la principal accepció del nom expert o adjectiu és la saviesa, la saviesa, l'apresa, que també és el sistema expert.
S'ofereix com a servei o plataforma web en https://perit.eus Coneix el basc i el castellà (avui necessari perquè la societat basca i les institucions i agents puguin utilitzar-lo). També tenim previst introduir més llengües en el futur.
A aquesta plataforma podem pujar un arxiu d'àudio o vídeo, així com un enllaç a un vídeo o àudio online (per exemple, EITB, Youtube, Facebook, Instagram...), i Expert realitza la transcripció automàtica i instantània del que allí es diu. El resultat es presenta en diferents formats: text de la transcripció, fitxer de subtítols i transcripció amb els temps de les paraules (per exemple, per a saber en quin segon s'ha dit una paraula exactament en el vídeo). La transcripció o els subtítols poden ser corregits o modificats abans de descarregar-se, utilitzant la interfície d'edició online d'Aditu. A més, permet transcriure simultàniament el que diem des del micròfon de l'ordinador o del telèfon mòbil.
A més de poder gaudir del servei via web, oferim solucions a mesura per a empreses i institucions. El servei es pot integrar en el flux de treball del client, en l'aplicació, en el CMS, etc. utilitzant l'API. La transcripció simultània també pot ser utilitzada per API per a la seva integració en un assistent virtual, subtítols directes en esdeveniments, etc. O si ho desitja també es pot instal·lar en el de client.
Des del punt de vista de l'accessibilitat, subtitulat, dictat o ordenat a l'ordinador, passant per la incorporació automàtica de subtítols de documentals i programes a les empreses audiovisuals, la televisió i les ràdios, passant per la transcripció d'enregistraments d'entrevistes als periodistes, l'aixecament d'actes de plens o altres reunions o la col·locació directa de subtítols en les sessions públiques, la creació de subtítols de conferències o cursos, la interactivitat de persones i màquines, fins a la utilització de domòtica, els centres de conversa virtuals, l'assistència a través d'entrevistes, eines de conversa, els centres de conversa, etc.
La qualitat de la transcripció o la taxa d'invenció d'Expert és, en general, bona, però és cert que és molt variable en funció de la qualitat de l'enregistrament d'àudio, la qualitat dels micròfons, el ressò, si se sent soroll o música enlaire, el registre, si es parla en llengua estàndard o en alguna de les seves variants, el volum, la velocitat, etc. En condicions òptimes, la taxa d'invenció pot superar el 95%. Els seus millors resultats són conferències, plens, informatius, documentals, reportatges, etc. Per contra, està pitjor en dialectes bascos, espontanis i informals, pel·lícules... A més, els resultats són sempre una mica pitjors en el cas de la transcripció simultània. No obstant això, en la majoria dels casos és totalment útil.
El veure la llum és una fita per a Elhuyar i per al basc, però no és la fi o la destinació del camí, sinó el principi. Hem de continuar millorant experts per a millorar el coneixement de la parla amb entrevistes informals, mala qualitat d'àudio, dialectes, pel·lícules... o, per què no, amb versos.
A més, si combinem el coneixement de la parla amb altres tecnologies lingüístiques i de parla que treballem per al basc (traducció automàtica, chatbots, síntesi o creació de parla...), pensa en el que es pot fer: altaveus intel·ligents, traducció simultània de la parla a la parla (imitant les veus originals si es desitja)... Veiem el futur amb il·lusió perquè el basc estigui al mateix nivell que altres llengües en les tecnologies i serveis. En Elhuyar continuarem treballant en això.