Qué escuchar, escribir

Kortabitarte Egiguren, Irati

Elhuyar Zientzia

Buscar por escrito es fácil en la red. Para ello solo tenemos que escribir la palabra que queremos consultar en el buscador. En estas búsquedas, sin embargo, se pierden, entre otras cosas, lo indicado en los ficheros de audio, siempre que no se recojan en el texto escrito las explicaciones de lo indicado en dichos ficheros de audio.
Qué escuchar, escribir
01/03/2008 | Kortabitarte Egiguren, Irati | Elhuyar Zientzia Komunikazioa

Los programas Gaur Egun de ETB utilizan, entre otras cosas, para formar sistemas de tratamiento del habla.
EITB
Conocer el habla oral y convertirlo en texto no es tarea fácil. Las palabras no se separan bien entre sí, hay que tener en cuenta la entonación y además el ruido de las señales físicas es un obstáculo. En este sentido, se ha abierto un amplio mercado a los sistemas que procesan y entienden el habla oral. Es decir, para herramientas que nos convierten en texto escrito.

Estos sistemas se integran por el momento principalmente en servicios telefónicos como cita previa, solicitud de productos, solicitud de reserva para espectáculos, etc. Pero hay otros como el dictado automático. En esta última se está trabajando, entre otros, en el departamento de Ingeniería de Sistemas y Automática de la UPV/EHU.

El tratamiento del habla requiere mucha y buena formación. Es decir, el sistema debe recibir cierto entrenamiento, lo que se conoce como aprendizaje máquina. Para ello se necesitan, por un lado, ficheros, audios y sonidos de televisión y radio, y por otro, textos de referencia de lo dicho en esos medios de comunicación. Investigadores de la UPV, por ejemplo, utilizan con frecuencia los programas Gaur Egun y Teleberri de ETB para formar el sistema. No es necesario saber qué se ha dicho literalmente, pero sí que es capaz de recoger un resumen de lo dicho. En definitiva, trata de comprender la relación entre sonidos y palabras.

Una vez finalizado el proceso de aprendizaje, el sistema debería ser capaz de entender lo dicho en cualquier Gaur Egun o Teleberri. Aunque el aprendizaje es un proceso lento, una vez que el sistema tiene las normas o la información interiorizada, es decir, tiene el material de referencia adecuado, muestra el resultado con cierta rapidez. En este caso, texto escrito de lo hablado. En definitiva, el objetivo es obtener texto de un audio o sonido.

Pequeño grande

Es cierto que la mayoría de este tipo de aplicaciones que se pueden encontrar en el mercado tienen como objetivo los “grandes” idiomas, sobre todo el inglés. Sin embargo, investigadores de la Escuela Universitaria Politécnica de Donostia-San Sebastián, en colaboración con los grupos IXA, GTTS e Inteligencia Computacional de la UPV/EHU, trabajan con el euskera. La diferencia evidente entre estas lenguas 'grandes' y 'pequeñas' radica en el número de datos de referencia. Este tipo de herramientas inglesas tienen una gran cantidad de datos, mientras que el material de referencia en euskera es bastante menor. Por ello, los investigadores están buscando nuevas técnicas para aprovechar mejor y con mayor precisión estos pocos datos.

La frecuencia y entonación de lo dicho oralmente ayudan a diferenciar el tipo de información que está recibiendo el sistema.
UPV/EHU
Para obtener este grado de precisión utilizan varias ecuaciones matemáticas. Tratan de encontrar las características más relevantes de los conjuntos de datos y ficheros de audio que proporcionen información adecuada. Sin embargo, es bastante difícil realizar esta selección, es decir, elegir la información que se va a recibir y que se va a rechazar. Normalmente trabajan con frecuencia y entonación para diferenciar el tipo de información que está recibiendo el sistema en cada momento (por ejemplo, si se trata de una pregunta o de una oración expresiva).

Estos sistemas dependen totalmente de la lengua y cada lengua tiene su propia herramienta. Pero, por ejemplo, los investigadores de la UPV/EHU trabajan no sólo con el euskera, sino también con el castellano y el francés. El programa Teleberri o las sesiones de Infozazpi, por ejemplo, tienen dos objetivos principales: por un lado, quieren comprender el castellano y el francés --junto con el euskera-, y por otro, buscar en este tipo de sistemas las similitudes existentes entre el euskera y las otras dos lenguas para poder mejorar la capacitación de las herramientas en euskera.

En este sentido, en la actualidad se están realizando una serie de ensayos que analizan la posibilidad de utilizar varios idiomas en una misma herramienta. Este es el reto de futuro de los investigadores de la UPV: desarrollar un sistema capaz de entender el euskera, el castellano y el francés.

Resumen del proyecto
Este grupo de investigación trabaja en el campo de los conocimientos plurilingües del habla para el euskera y las lenguas que le rodean. En particular, desarrollan diversas herramientas y recursos para el acceso automático a la información a través del lenguaje informativo de los medios de comunicación vascos. Para ello, investigan las técnicas para obtener esta información de la forma más eficaz posible y, sobre todo, desarrollan métodos para lenguas minoritarias como el euskara.
Director
Dra. Miren Karmele López de Ipiña.
Equipo de trabajo
C.M. López de Ipiña 1 , N. Barroso 1 , N. Gilisagasti 1 , I. Ariztimuño 1 , A. Nov 1 , N. Ezeiza 2 y M. Hernández 2.
Departamento
Ingeniería de Sistemas y Automática.
Facultad
1 Escuela Universitaria Politécnica de Donostia-San Sebastián y 2 Facultad de Informática.
Por la izquierda, Ixabel Ariztimuño, Nora Barroso, Aitzol Ezeiza, Karmele Lopez de Ipiña y Nerea Ezeiza.
(Foto: UPV)
Kortabitarte Egiguren, Irati
Servicios
Más información
2008
Servicios
036
Universidades
Difusión del conocimiento
Otros
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila