As tecnoloxías da fala son aquelas que son desenvolvidas e utilizadas por máquinas e computadores paira crear e comprender a fala humana. Divídense en dúas tecnoloxías principais: a creación ou síntese da fala (que as máquinas sexan capaces de falar), chamada TTS ou Text-To-Speech; e o coñecemento da fala (que as máquinas sexan capaces de entender o que se lles di), tamén expresado mediante as siglas ASR ou Automatic Speech Recognition. Na Fundación Elhuyar levamos un tempo traballando con eles, especialmente paira o eúscaro, e desenvolvemos diversas ferramentas paira axudar a que todas as persoas teñan una plena inclusión en moitos ámbitos.
En canto á síntese da fala en eúscaro, o grupo de investigación da Universidade do País Vasco/Euskal Herriko Unibertsitatea Aholkularitza é o referente principal. Levan anos traballando na creación lingüística do eúscaro, e o seu sistema CanalTTS é o que obtén o mellor resultado en eúscaro. En Elhuyar desenvolvemos diversas solucións e ferramentas paira a accesibilidade, baseadas no sistema | TTS.
Una delas permite escoitar as páxinas web en lugar de lelas. Hai cinco anos informámosvos deste produto nesta mesma sección. Naquela época contámosvos que a revista Elhuyar estaba instalada nas páxinas web e Zientzia.eus, pero desde entón puxémola noutros sitios: en eitb.eus, en varios apartados da web da UPV/EHU, na web Sara.com... Esta ferramenta permítenos ler o contido destas webs, convertendo o texto das mesmas nun fala, polo que é moi interesante paira cegos ou discapacitados visuais, así como paira calquera persoa, paira facer máis accesible o contido das pantallas pequenas dos móbiles. Con todo, ten outros usos que van máis aló da accesibilidade: camiñando pola rúa ou conducindo en coche, paira escoitar o contido cos auriculares sen ter que fixarse na pantalla, ir en tren ou autobús, apropiarse dos contidos, sen molestias da triki-traqua, etc. Esta ferramenta, que aparece como reprodutor de barras, permite seleccionar entre dúas voces (home ou muller) e axustar a velocidade de lectura.
A Fundación Wikimedia quere facer o mesmo nun dos seus proxectos máis coñecidos, Wikipedia: implantar a tecnoloxía para que todas as persoas poidan acceder ao seu contido sen obstáculos. Paira iso, puxo en marcha fai un par de anos o proxecto Wikispeech, que ten como obxectivo crear un reprodutor de barras paira ler artigos de Wikipedia a través de TTS. Este proxecto está bastante avanzado e espérase a súa posta en marcha en breve. Nun principio desenvolveuse nunhas poucas linguas (inglés, árabe, sueco e noruegués), pero en Elhuyar, por encargo de EWKE, a Asociación Cultural Vasca de Wikispeech, realizamos xa a síntese en eúscaro (xa mencionada 2015-TTS) paira a súa integración en Wikispeech. Por tanto, cando Wikipedia implanta e presenta Wikispeech, o eúscaro estará entre as poucas linguas iniciais.
O Lector Dixital é outro dos instrumentos que traballamos paira a inclusión a través da síntese de fala, paira o Berritzegune Nagusia do Departamento de Educación do Goberno Vasco. A Escola Inclusiva Local ou PCPI necesitaba una solución paira axudar aos nenos con dislexia no seu proceso de aprendizaxe e educación. A dislexia, de orixe neurológico, é una alteración que afecta as competencias lingüísticas relacionadas coa lectura e a escritura. As ferramentas baseadas na TTS son moi útiles paira axudar ás persoas que teñen este problema, e moitas delas existían, pero non existían en eúscaro. Así, os nenos que utilizaban estas ferramentas tiñan que escoitar textos en eúscaro coa TTS en castelán, o que lles causaba problemas: acentos e entonaciones erróneas, pronuncias inapropiadas das consonantes g, z, x, tz, ts e tx...
A ferramenta desenvolvida é un aditivo que funciona nos navegadores web Lector Dixital , Firefox e Chrome, que nos le as páxinas web que abrimos no navegador, os documentos PDF ou os documentos de texto (incluíndo os documentos de Google Docs, tan utilizados no mundo educativo). Tamén se pode elixir una das dúas voces e axustar a velocidade, pero tamén marca a palabra que está a ler e lea literalmente, que tamén axuda nos casos máis agudos de dislexia.
Recentemente deseñamos e posto en marcha o produto Bidaia. Con Bidaide, calquera persoa pode utilizar e gozar libremente dos recursos turísticos e culturais (museos, rutas turísticas e culturais...), así como dos edificios públicos. Ten tres compoñentes principais: tecnoloxías lingüísticas e de fala paira a creación e xestión de contidos, asesoramento en accesibilidade e una aplicación paira teléfonos móbiles.
En canto á xestión de contidos, como xa se indicou, utilízanse tecnoloxías lingüísticas e de fala paira favorecer a accesibilidade. A accesibilidade ten que ver, entre outras cousas, coas opcións lingüísticas, xa que se hai un percorrido, una web ou calquera outra cousa nunha ou poucas linguas, non é accesible paira os que non saben esas linguas. Por iso, paira poder realizar un percorrido ou un edificio o máis accesible posible, as explicacións ou orientacións e orientacións dos centros de interese dos mesmos deben estar no maior número posible de linguas.
Bidaide pon a disposición do xestor una plataforma web paira a xestión dos textos das explicacións e permite ter contido en varios idiomas e utilizar a tradución automática. Con todo, se os contidos e explicacións están en formato texto, non son accesibles paira persoas cegas ou con deficiencia visual. Por iso, a plataforma web de xestión de contidos xestiona audios en diferentes idiomas e, se o desexa, poden crearse de forma automática, utilizando a síntese da fala de Elhuyar.
No ámbito da consultoría de accesibilidade requírese a colaboración dunha empresa especializada na mesma. Por unha banda, propoñen ou realizan as adaptacións necesarias para que o percorrido ou edificio sexa accesible. Doutra banda, engade información adicional opcional de accesibilidade ás explicacións dos puntos críticos dos puntos de interese e do percorrido, como barreiras arquitectónicas, fortes pendentes, descricións de mostras, notas paira o contacto coas esculturas, etc. Ademais, se o desexan, escriben textos expositivos seguindo as directrices da lectura fácil paira persoas con discapacidades cognitivas ou dificultades de comprensión da linguaxe. Por último, cando todo está listo, realizan probas de accesibilidade con usuarios con diferentes características e diversidade funcional.
En canto á aplicación de teléfono móbil, una vez instalada no teléfono, é a propia aplicación a que se encarga de informar a cada tipo de usuario en función das súas características: exposición de textos explicativos ou reprodución de audios, información adicional de accesibilidade, etc. A propia aplicación é accesible, conxugada coas implantacións de accesibilidade do usuario, con contrastes de cores e pictogramas… E, por último, guia ás persoas con deficiencia visual ou cegueira ao longo do percorrido, explicándoas nos lugares máis importantes: virar á esquerda, seguir outros 30 metros cara adiante... Paira iso utilízase a tecnoloxía GPS nas rutas exteriores e nas rutas interiores colócanse unhas balizas nos puntos crave que emiten o sinal Bluetooth e que poden detectar cando os móbiles están cerca.
O proxecto Bidaia, por tanto, é totalmente pioneiro, xa que pretende garantir o acceso a todas as persoas á cultura, ao turismo e aos servizos públicos, respectando e recoñecendo a diversidade humana. A nosa intención é abrila ao máximo para que se converta no maior número posible de espazos accesibles e inclusivos. Recentemente implantamos a ruta Harria Hitz de Usurbil. O percorrido Harria Hitz ten como obxectivo dar a coñecer o papel de Usurbil na recuperación da cultura vasca contemporánea a través de una serie de elementos que se poden ver no núcleo urbano. Neste caso, os sete puntos do percorrido expuxéronse en seis idiomas; os de catalán e galego foron creados directamente por tradución automática; todos os audios foron creados por TTS e as explicacións están escritas seguindo as directrices dunha lectura sinxela.
Máis aló da creación da fala, está claro que o coñecemento da fala ou o ASR pode achegar moito á inclusión de todas as persoas. Por exemplo, pode axudar a persoas con discapacidade física ou motora a traballar con computadores, comprendendo e executando ordes de fala: “abre o navegador”, “garda o arquivo”... Non hai que esquecer que cando hai que escribir textos longos, o coñecemento da fala permite non utilizar o teclado senón un sistema de ditado. Doutra banda, na actualidade, a través dos teléfonos móbiles e os altofalantes intelixentes conséguese a interacción mediante a fala, que cada vez son máis os que utilizan por comodidade, pero paira moita xente con diversidade funcional é a única maneira de utilizar estes dispositivos, que é imprescindible. Tamén pode ser de gran utilidade para que persoas xordas ou con deficiencia auditiva teñan acceso ao contido audiovisual, xa que os subtítulos poden crearse automaticamente a través do ASR. Deste xeito, pode facilitar o proceso de creación de subtítulos aos creadores de contidos e, nos casos nos que o creador non os ofreza, crear automaticamente o usuario directamente, que, sen ser perfectos, pode ser suficiente (e mellor que nada) paira entender o contido.
Xa existen ferramentas e servizos deste tipo que todos coñecemos: O sistema operativo Windows pódese controlar desde hai tempo mediante a fala; en Youtube tamén se poden activar subtítulos automáticos si non se entende o idioma do vídeo... Pero desgraciadamente non funcionan en eúscaro. En Elhuyar traballamos tamén no coñecemento do eúscaro, co fin de ofrecer as ferramentas mencionadas en eúscaro o máis axiña posible. Esperamos que nun artigo posterior poidamos esperar un pouco pronto e informarémosvos deste tipo de solucións.