En 2014, Elhuyar lanzó un nuevo servicio tecnológico: la síntesis del habla. Esta tecnología que permite convertir textos en audio ha sido utilizada desde entonces por nuestros clientes para ofrecer diferentes servicios. Las tecnologías lingüísticas y del habla han avanzado mucho gracias a la tecnología de las redes neuronales, y en Elhuyar hemos desarrollado una tecnología neuronal propia de síntesis de habla, con mayor calidad y nuevas posibilidades. Conozcamos el nuevo servicio web de síntesis de habla neuronal.
Dentro de las tecnologías del habla predominan dos tecnologías: ASR (Automatic Speech Recognition) o conocimiento del habla, que consiste en la transcripción o conversión de un audio de habla en texto, llamado TTS (Text-To-Speech) o síntesis del habla, que consiste en la lectura o conversión de un texto en audio. Desde hace unos años trabajamos para el euskera en el centro de inteligencia artificial Orai, creado por Elhuyar, y, en base a ambos, Elhuyar socializa los servicios en euskera. En cuanto al ASR, en el año 2020 pusimos en marcha el servicio de transcripción, subtitulación y dictado Aditu .eus. En cuanto a la TTS, desde 2014 existe el servicio de conversión de texto online a voz y la página web.
Este servicio estaba basado en la tecnología Aho TTS desarrollada por el grupo de investigación Aholab de la Universidad del País Vasco, que se desarrolló con la mejor lógica tecno-técnica de la época y era el único que funcionaba en euskera. En estos años, la tecnología se ha utilizado en diversos lugares y casos: para permitir escuchar el contenido de algunas webs (Elhuyar aldizkaria, Zientzia.eus, EITB.eus, Sarean .eus, el servicio para personas con discapacidad de la UPV, para que los profesores puedan compartir material y recursos deseados, la página web Amarauna del Departamento de Educación...), para ayudar a que los alumnos y alumnas puedan expresar en euskera sus palabras en el diccionario digital.
Desde entonces, todas las tecnologías lingüísticas y de habla, incluido el TTS, han pasado a funcionar a través de la tecnología conocida como redes neuronales profundas (deep neural networks) o aprendizaje profundo (deep learning), que ofrece unos resultados mucho mejores. Y si bien se decía entonces que el habla que creábamos sintéticamente era bastante natural (y así era para los estándares de entonces), lo que hoy se consigue con las redes neuronales es mucho más natural, desde el lenguaje casi auténtico hasta el infinito.
Pues bien, a lo largo de los últimos años, en Orai hemos estado desarrollando una síntesis neuronal de habla en euskera, y ya tenemos nuestro propio sistema. Es de muy buena calidad lo que parece un auténtico habla en la pronunciación, la entonación, la prosodia... Además, con las tecnologías actuales podemos hacer cosas que antes costaba más y tener nuevas funcionalidades. Por ejemplo, en el sistema anterior, por cada voz diferente que se pretendía crear, se entrenaba un modelo y se necesitaban bastantes grabaciones. Hoy en día, sin embargo, en un mismo modelo podemos tener muchas más voces y con mucho menos tiempo de grabación, por lo que podemos crear más fácilmente nuevas voces sintéticas.
Además, se pueden crear modelos multilingües que hemos creado en seis idiomas: euskera, castellano, francés, inglés, catalán y gallego. A través de ellas se puede conseguir que las grabaciones se hagan con una persona en un idioma determinado (digamos, euskera), pero luego el modelo entrenado con esas grabaciones sea capaz de hacer una síntesis en otro idioma (digamos, ingelesa, o francés, o catalán) con la voz de esa persona! Es decir, puedes poner a una persona “hablando” en otra lengua, ¡sin tener ni idea de esa lengua!
Este año Elhuyar ha puesto en marcha el servicio web basado en la nueva tecnología neuronal en https://ttsneuronala.elhuyar.eus/. Entre las seis lenguas mencionadas y en cada una de ellas podemos elegir entre dos o cuatro voces diferentes, dar un texto y convertirlo en un habla. La calidad de las voces la podemos comprobar a través de la caja de texto de la web.
Además, si queremos, también podemos crear nuestra voz personalizada, que sólo nosotros podremos utilizar. Para ello, basta con grabar unos diez minutos leyendo unas frases y después podremos hacer una síntesis de habla con nuestra voz en el idioma grabado o en cualquier otro. Los ejemplos de voces personalizadas así creadas se pueden escuchar en las páginas web de la revista Elhuyar o de Goiena (en el caso de Elhuyar también se pueden pasar a otras opciones).
Existen varias formas de utilizar la tecnología. Lo más sencillo y sencillo es a través de la caja de texto, donde pegaremos el texto deseado y crearemos audio. También ofrecemos una API que nos permite acceder a nuestra aplicación o servicio. Y si en lugar de leer una página web se quiere dar la oportunidad de escucharla, también ofrecemos el código de una barra reproductora, que se inserta fácilmente en la web.
Los clientes anteriores al servicio TTS ya se han migrado a nuevos servicios y nuevas voces, y también se están beneficiando de nuevas empresas (Tokikom, Skura, Batasuna, Ulma, Ibil, Naiz...), muchas de ellas con voces personalizadas.
¿Y qué uso tiene realmente la tecnología TTS, para qué están utilizando estos clientes? Pues tiene muchos usos posibles. Una de las más habituales es hacer las páginas web más accesibles y/o accesibles mediante la barra reproductora (por ejemplo, caminando en el móvil o en transporte público). A través del API, y en combinación con el ASR, también se permite la interacción con máquinas o apps a través del habla. Utilizando la caja de texto podemos crear un podcast audible sin necesidad de grabarlo directamente del texto, o crear voces en off para nuestro audiovisual. En un futuro próximo, también será posible realizar el doblaje (semiautomático), añadiendo el TTS a nuestro servicio de subtitulación y traducción automática Aditu.
Por el momento, nuestra tecnología TTS crea un habla neutra, que es suficiente para leer el contenido de un medio de comunicación o página web, para hablar una máquina o para voces en off. Pero en Orai seguimos investigando en muchas direcciones, para tener también voces emocionales, para poder parametrizar y modelar a la carta el habla que se produce (velocidad de cada intervalo, entonación, bolumena...), para poder realizar una síntesis imitando una voz con una pequeña muestra sin necesidad de entrenar modelos propios mediante grabaciones... Totalmente observables, para que este tipo de herramientas estén presentes también en un mundo cada vez más tecnológico y tecnológico.