Si las tecnologías de voz no se han utilizado hasta fechas recientes, no es porque no hubiera necesidad de ser, sino porque la tecnología todavía no estaba bastante madura y avanzada. Las necesidades y posibles aplicaciones han sido siempre numerosas.
Lo que primero nos viene a la cabeza de estos posibles usos es la interacción con dispositivos digitales. En lugar de dar las órdenes al ordenador, teléfono o tablet en el teclado por escrito o haciendo clic con el ratón, puede resultar más cómodo y rápido en muchos casos hacerlo de forma verbal. Y para obtener el resultado de la máquina, en lugar de leerlo en la pantalla, a menudo puede resultar más cómodo escuchar. Ejemplos de interacción por voz son los agentes de diálogo tipo Siri que cada vez se ven más en dispositivos móviles (de los que ya os habíamos hablado en enero de 2012).
También pueden colaborar en la comunicación interpersonal. Combinada con la traducción automática, las tecnologías de voz permiten realizar traductores de voz.
Otra aplicación es la gestión de la información. Los ordenadores manejan de forma sencilla y rápida la información escrita y se pueden hacer herramientas muy útiles como los buscadores. Sin embargo, cuando se trata de grabaciones de audio, las máquinas no son capaces de comprenderlas y deben ser transcritas. Por el contrario, si son capaces de comprender el habla a través de las tecnologías de voz, las propias máquinas convertirían la voz en texto y en audio
los archivos se podrían indexar fácilmente para la búsqueda (por ejemplo, BBC está catalogando todos los audios de la radio de toda su historia para la búsqueda) o subtitular automáticamente las películas.
Dentro de las tecnologías de voz, un aspecto importante es el conocimiento de la voz, pero en este artículo nos centraremos en la tecnología en sentido contrario: la síntesis de voz, también conocida como TTS (Text To Speech) en inglés. Esta tecnología genera el audio de un habla desde un texto, con voces sintéticas o artificiales, en la forma más natural posible. Y eso, en parte, está bastante conseguido, al menos para una entonación neutra. Curiosamente, los robots que aparecían en viejas películas de ciencia ficción eran máquinas muy inteligentes y no tenían problemas para entender lo que se les decía, pero ellos hablaban de una manera muy artificial y robótica (por supuesto). Pero en realidad ha sucedido lo contrario: hoy en día las máquinas pueden hablar bastante bien, entender, pero no tan bien, y todavía falta mucho margen para ser inteligentes...
Los investigadores también están trabajando en la síntesis de voz emocional, es decir, que la voz sintética exprese emociones como el enfado, la alegría, la sorpresa o la pena. Y es que en muchos casos no basta con decir las cosas con entonación neutra, por ejemplo, si se quiere duplicar el filme y el filme automáticamente.
Para que la voz sintética que se crea parezca natural, es necesario hacer muchas grabaciones de personas reales, obteniendo un habla con la misma voz que esa persona, que parece ser lo que dice una persona real. Pero esto tiene un problema, ya que cuando se necesitan muchas voces diferentes no sirve (por ejemplo, para doblar las películas arriba mencionadas). Por ello, también existe la tecnología de la transformación de las voces, es decir, la tecnología para conseguir que una voz sintética basada en grabaciones parezca ser propiedad de otra persona. Se utiliza, por ejemplo, para elaborar sintetizadores de voz que parezcan a su voz para personas que han perdido la capacidad de hablar.
Ya hemos dicho anteriormente que las tecnologías de voz están bastante avanzadas en la actualidad y son cada vez más utilizadas. Sin embargo, estas tecnologías dependen del idioma (quizá con la excepción de la detección del ponente) y no están en el mismo nivel de desarrollo para todas las lenguas. Como siempre, estas tecnologías están muy desarrolladas para unas pocas lenguas (las de siempre: inglés, castellano, alemán, chino...) y para la mayoría de las demás mucho más descolgadas.
A pesar de no estar a la altura de estas lenguas con mejor desarrollo, el euskera no es, afortunadamente, una de las lenguas que se encuentran en el último vagón. Llevamos años trabajando en tecnologías de voz para el euskera. Y en ese trabajo tenemos como referente y pionero el grupo de investigación de la UPV Aholkularitza. Todas las tecnologías mencionadas han sido y están en fase de elaboración.
La tecnología más avanzada para el euskera de Kontseilua, por supuesto, es la de la síntesis vocal. Obtienen una voz sintética neutra de muy buena calidad y que puede ser utilizada en aplicaciones. Por ello, en colaboración con Zapore Jai, la unidad de Lengua y Tecnología de Elhuyar ha desarrollado la tecnología de escucha a través de la síntesis de voz en lugar de leer las páginas web.
Porque ya no solo navegamos por los ordenadores de sobremesa en la web. Cada vez vamos más por internet desde nuestros smartphones y tablets. Y en ellas, las condiciones de lectura de las páginas web no son muy adecuadas: es una pantalla pequeña (sobre todo en los teléfonos), a menudo vamos en movimiento (a pie, en el tren, en el autobús...), etc. Sin embargo, en este tipo de dispositivos estamos muy acostumbrados a escuchar el contenido (música, podcasts...) con los auriculares. Por ello, nos pareció muy interesante desarrollar esta tecnología para poder escuchar webs. En lugar de leer el contenido en el ordenador o dispositivo móvil, el usuario podrá ir escucharlo mientras realiza otra cosa.
Por el momento, hemos puesto esta tecnología en la web de la revista Elhuyar y en Zientzia.net. Estando en un contenido local (un artículo, un reportaje...) nos aparece una barra en la que aparece un botón típico en forma de “play”. Pulsando aquí, empezamos a escuchar el artículo. La escucha se repite y la frase que estamos escuchando aparece marcada. También hay botones para poder navegar en la escucha (para ir a la frase anterior o siguiente, al paragráfora anterior o al lado, o al lugar que queramos). Además, podemos modificar la voz (entre una mujer y un hombre), el volumen y la velocidad. Además, si estamos en un número de la revista, pulsando el botón de escuchar, podremos escuchar sucesivamente todos los artículos de ese número, lo que puede ser muy interesante si vamos en coche en un viaje relativamente largo, ya que en lugar de escuchar la radio podemos escuchar toda la revista. Finalmente, en las entrevistas, nos lee con una voz diferente a la elegida para diferenciar preguntas, preguntas y respuestas. Y todo ello con la tecnología estándar HTML5 (en HTML5 os hablamos en febrero de 2010).
Una buena oportunidad para conocer y disfrutar de las tecnologías de voz en euskera. ¡Pruébalo y descúbrelo!