Ya llegan los agentes de diálogo

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Una de las principales y únicas novedades del modelo 4S del iPhone presentado por Apple en octubre del año pasado es el agente de diálogo Siri. En lugar de realizar el acceso a las aplicaciones y opciones del teléfono a través de la pantalla táctil y el teclado, esta aplicación que lleva preinstalada el modelo iPhone 4S lo ofrece mediante voz y lenguaje natural. Y como ocurre con todo lo que hace Apple, seguramente este tipo de agentes de diálogo se irán ampliando en smartphones y tablets.
badatoz-elkarrizketa-agenteak
Ed. © iStockphoto.com/Manley 099

Aunque para muchos las cosas no existen hasta que Apple las haga, los agentes de diálogo no son de ayer por la mañana. Uno de los pioneros más conocidos es la IGLESIA, desarrollada en el MIT en 1966; no funcionaba por voz, sino por teclado y pantalla, pero era capaz de mantener una conversación en lenguaje natural.

Antes de Siri de Apple, desde 2010 ya existía la aplicación Google Voice Actions en móviles Android. Con esto también se crea la interacción por voz, pero no es como la de Siri: La aplicación de Google entiende ciertos comandos (" listen to [grupo, álbum, canción]", " call [alguien de la agenda, una empresa]", " send e-mail to [alguien de la agenda]", " map of [ciudad]", " navigate to [dirección, empresa]", " search [búsqueda]"...); El lenguaje que podemos utilizar con Siri no está limitado, es decir, tiene interfaz por lenguaje natural. Es cierto que, al fin y al cabo, se pueden hacer casi lo mismo con ambos, pero las conversaciones con Siri son más naturales y la respuesta también nos "lee", en lugar de mostrarla solo en la pantalla. Por otro lado, con Siri el riesgo de no comprender o malentender como le decimos las cosas es mayor, pero en los casos en los que no lo ha entendido o no está seguro, vuelve a preguntarse, o pide que se especifique más, o que se ratifique.

Revolución no, pero innovación significativa

Pero a Siri no hay que restarle ningún mérito. Es la primera vez que un agente de lenguaje natural y voz se introduce en un dispositivo de gran difusión. Y aunque no es perfecto y a veces falla, hay que reconocer que en general consigue buenos resultados. De hecho, detrás de la tecnología de Siri se encuentra una empresa dedicada íntegramente a ello, también llamada Siri, que Apple compró en abril de 2010.

Siri utiliza diferentes tecnologías para hacer lo que hace: conocimiento de la voz, procesamiento del lenguaje, ontologías... La combinación de todos ellos permite comprender diferentes órdenes, pero al mismo tiempo hace más sensible a los errores. La precisión de cada una de estas tecnologías no es del 100%, y los errores que pueden producirse en cada una de ellas se acumulan en el resultado global.

Sin embargo, este tipo de sistemas obtienen mejores resultados en dominios concretos y/o limitados, como es el caso de Siri, en el que las conversaciones se limitan a lo que normalmente puede hacer un móvil, lo que facilita enormemente la comprensión de lo que se le dice. Por otro lado, el conocimiento del contexto también ayuda mucho a este tipo de agentes, y en un smartphone tenemos mucha información del contexto: posición (se puede conocer a través de GPS o antenas de teléfono), contactos de la agenda, búsquedas anteriores, webs navegadas previamente, llamadas anteriores...

¿Agentes en euskera?

Es sabido que Apple a menudo marca la tendencia, y seguramente en un futuro próximo comenzaremos a ver más agentes de diálogo en los smartphones de la competencia, o por qué no, en otros dispositivos (tablets, e-books, ordenadores...). Por ejemplo, para teléfonos con sistema operativo Android ya hay muchas aplicaciones como Siri (Jeannie, Andy, Cloe, Iris, Vlingo, Speaktoit Assistant, Risi...). Algunos de ellos existían antes de Siri y gracias a él han ganado visibilidad, pero otros han venido después. Lo único que se necesita para que los agentes de conversación tengan una difusión definitiva en los móviles Android es que el sistema operativo traiga uno de ellos preinstalado y seleccionado por defecto, como ha ocurrido en los iPhones. Y parece que Google lo está haciendo: Dice que en la siguiente versión de Android traerá instalado por defecto un agente de diálogo desarrollado por él, llamado Majel.

Estos agentes de lenguaje natural funcionan con una o varias lenguas. Siri, por ejemplo, está en inglés, francés y alemán; algunas aplicaciones para Android también están en castellano. Pero todavía no hay agentes de conversación que sepan euskera para móviles. Y si en el futuro se hacen de uso cotidiano, necesitamos que también sean en euskera.

En 2008, dentro del proyecto de investigación de tecnologías lingüísticas AnHitz, la Fundación Elhuyar, los grupos de investigación IXA y Aholkularitza de la UPV y los centros de investigación Vicomtech y Robotiker-Tecnalia realizaron una demo de un agente de habla, AnHitz. Se trataba de un experto virtual en ciencia y tecnología que respondía a preguntas en estos campos y permitía realizar búsquedas multilingües. Y en 2011 estas mismas instituciones han desarrollado la demo de otro agente de diálogo dentro del proyecto BerbaTek, en esta ocasión un tutor personal para la enseñanza de idiomas. En ambos casos, la voz y el lenguaje natural son la forma en la que se produce la interacción, y esta tecnología es igualmente aplicable a las acciones que se pueden realizar en un móvil. Por lo tanto, sólo hace falta que los productores de móvil muestren interés por el euskera para ser agentes de conversación que saben euskera en los móviles.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila