Experto .eus, servicio de conversación en euskera

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En el grupo de I+D de las tecnologías lingüísticas y del habla de la Fundación Elhuyar llevamos años desarrollando y socializando recursos, tecnologías y servicios relevantes para el euskera: diccionarios, corpus, correctores, buscadores, extracción de opiniones, traductores, síntesis de habla... En algunas de ellas, debido a la dificultad de la problemática, la tecnología daba resultados experimentales, pero no aplicables a aplicaciones reales, o bien para el euskera no teníamos la tecnología de otras lenguas. Pero en los últimos años, gracias a la tecnología de redes neuronales profundas, hemos avanzado mucho. Así, en noviembre publicamos Itzultzaile ea.eus, traductor automático multilingüe basado en redes neuronales (euskara, castellano, francés, catalán, gallego e inglés), y en marzo, un reconocimiento de habla bilingüe basado en redes neuronales: Expert.eus
aditueus-hizketa-ezagutzeko-euskarazko-zerbitzua
Ed. Elhuyar

El habla es una de las formas de comunicación más antiguas y diferenciadoras que tenemos los seres humanos entre nosotros (una de las características que nos diferencia de los animales). Más tarde vino la comunicación escrita que, además de la comunicación, tiene la capacidad de conservar el conocimiento. El lenguaje es el medio más natural de comunicación entre la gente, pero el camino que hemos utilizado las personas para comunicarse con los ordenadores es escrito: le introducimos las órdenes, la programación y los textos en el teclado, que utiliza los textos de la pantalla para visualizar los resultados. Esto es así porque los ordenadores no eran capaces de comprender el lenguaje humano.

En los últimos años, la creación y mejora de los sistemas de reconocimiento del habla ha ido ampliando paulatinamente los sistemas de introducción del habla: agentes de diálogo, subtituladores automáticos, altavoces inteligentes, sistemas de dictado... Pero el euskera no ha estado en esos sistemas.

Hace un año explicamos en la revista las soluciones basadas en tecnologías de habla para la accesibilidad desarrolladas en Elhuyar: herramienta de lectura de páginas web, Lector Digital, Wikispeech, Viajde... Todos ellos se basan en la síntesis del habla, es decir, en la tecnología que utilizan los ordenadores para crear el habla mediante la entrega de un texto. Entonces hablábamos de cómo las tecnologías para el reconocimiento del habla pueden contribuir a la accesibilidad e inclusión (control de ordenadores y otras máquinas mediante el habla, sistemas de dictadura, subtitulado automático...). En otras lenguas sí, pero en euskera no existía ese sistema. Pues bien, en marzo lanzamos el servicio de reconocimiento del habla en euskera, adecuado para la accesibilidad y otros usos: Expert.eus

Jakin.eus, el reconocedor del habla de Elhuyar

Experto es un reconocedor del habla basado en redes neuronales profundas. Su nombre es muy apropiado. El verbo experto tiene dos sentidos principales: escuchar el primero y comprender el segundo, y eso es lo que Experto hace, escuchar y comprender lo que le decimos (porque da por escrito el precio de lo escuchado). Por otra parte, la principal acepción del nombre experto o adjetivo es la sabiduría, la sabiduría, la aprendida, que también es el sistema experto.

Se ofrece como servicio o plataforma web en https://perit.eus Conoce el euskera y el castellano (hoy necesario para que la sociedad vasca y las instituciones y agentes puedan utilizarlo). También tenemos previsto introducir más lenguas en el futuro.

A esta plataforma podemos subir un archivo de audio o vídeo, así como un enlace a un vídeo o audio online (por ejemplo, EITB, Youtube, Facebook, Instagram...), y Experto realiza la transcripción automática y instantánea de lo que allí se dice. El resultado se presenta en diferentes formatos: texto de la transcripción, fichero de subtítulos y transcripción con los tiempos de las palabras (por ejemplo, para saber en qué segundo se ha dicho una palabra exactamente en el vídeo). La transcripción o los subtítulos pueden ser corregidos o modificados antes de descargarse, utilizando el interfaz de edición online de Aditu. Además, permite transcribir simultáneamente lo que decimos desde el micrófono del ordenador o del teléfono móvil.

Ed. Elhuyar

Además de poder disfrutar del servicio vía web, ofrecemos soluciones a medida para empresas e instituciones. El servicio se puede integrar en el flujo de trabajo del cliente, en la aplicación, en el CMS, etc. utilizando el API. La transcripción simultánea también puede ser utilizada por API para su integración en un asistente virtual, subtítulos directos en eventos, etc. O si lo desea también se puede instalar en el de cliente.

Desde el punto de vista de la accesibilidad, subtitulado, dictado u ordenado al ordenador, pasando por la incorporación automática de subtítulos de documentales y programas a las empresas audiovisuales, la televisión y las radios, pasando por la transcripción de grabaciones de entrevistas a los periodistas, el levantamiento de actas de plenos u otras reuniones o la colocación directa de subtítulos en las sesiones públicas, la creación de subtítulos de conferencias o cursos, la interactividad de personas y máquinas, hasta la utilización de domótica, los centros de conversación virtuales, la asistencia a través de entrevistas, herramientas de conversación, los centros de conversación, etc.

La calidad de la transcripción o la tasa de invención de Experto es, en general, buena, pero es cierto que es muy variable en función de la calidad de la grabación de audio, la calidad de los micrófonos, el eco, si se oye ruido o música en alto, el registro, si se habla en lengua estándar o en alguna de sus variantes, el volumen, la velocidad, etc. En condiciones óptimas, la tasa de invención puede superar el 95%. Sus mejores resultados son conferencias, plenos, informativos, documentales, reportajes, etc. Por el contrario, está peor en dialectos vascos, espontáneos e informales, películas... Además, los resultados son siempre algo peores en el caso de la transcripción simultánea. Sin embargo, en la mayoría de los casos es totalmente útil.

Muchas opciones de futuro

El ver la luz es un hito para Elhuyar y para el euskera, pero no es el fin o el destino del camino, sino el principio. Debemos seguir mejorando expertos para mejorar el conocimiento del habla con entrevistas informales, mala calidad de audio, dialectos, películas... o, por qué no, con versos.

Además, si combinamos el conocimiento del habla con otras tecnologías lingüísticas y de habla que trabajamos para el euskera (traducción automática, chatbots, síntesis o creación de habla...), piensa en lo que se puede hacer: altavoces inteligentes, traducción simultánea del habla al habla (imitando las voces originales si se desea)... Vemos el futuro con ilusión para que el euskera esté al mismo nivel que otras lenguas en las tecnologías y servicios. En Elhuyar seguiremos trabajando en ello.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila