Xa chegan os axentes de diálogo

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Una das principais e únicas novidades do modelo 4S do iPhone presentado por Apple en outubro do ano pasado é o axente de diálogo Siri. En lugar de realizar o acceso ás aplicacións e opcións do teléfono a través da pantalla táctil e o teclado, esta aplicación que leva preinstalada o modelo iPhone 4S ofréceo mediante voz e linguaxe natural. E como ocorre con todo o que fai Apple, seguramente este tipo de axentes de diálogo iranse ampliando en smartphones e tablets.
badatoz-elkarrizketa-agenteak
Ed. © iStockphoto.com/Manley 099

Aínda que paira moitos as cousas non existen ata que Apple fágaas, os axentes de diálogo non son de onte pola mañá. Un dos pioneiros máis coñecidos é a IGREXA, desenvolvida no MIT en 1966; non funcionaba por voz, senón por teclado e pantalla, pero era capaz de manter una conversación en linguaxe natural.

Antes de Siri de Apple, desde 2010 xa existía a aplicación Google Voice Actions en móbiles Android. Con isto tamén se crea a interacción por voz, pero non é como a de Siri: A aplicación de Google entende certos comandos (" listen to [grupo, álbum, canción]", " call [alguén da axenda, una empresa]", " send e-mail to [alguén da axenda]", " map of [cidade]", " navigate to [dirección, empresa]", " search [procura]"...); A linguaxe que podemos utilizar con Siri non está limitado, é dicir, ten interfaz por linguaxe natural. É certo que, á fin e ao cabo, pódense facer case o mesmo con ambos, pero as conversacións con Siri son máis naturais e a resposta tamén nos le", en lugar de mostrala só na pantalla. Doutra banda, con Siri o risco de non comprender ou malentender como lle dicimos as cousas é maior, pero nos casos nos que non o entendeu ou non está seguro, volve preguntarse, ou pide que se especifique máis, ou que se ratifique.

Revolución non, pero innovación significativa

Pero a Siri non hai que restarlle ningún mérito. É a primeira vez que un axente de linguaxe natural e voz introdúcese nun dispositivo de gran difusión. E aínda que non é perfecto e ás veces falla, hai que recoñecer que en xeral consegue bos resultados. De feito, detrás da tecnoloxía de Siri atópase una empresa dedicada integramente a iso, tamén chamada Siri, que Apple comprou en abril de 2010.

Siri utiliza diferentes tecnoloxías paira facer o que fai: coñecemento da voz, procesamiento da linguaxe, ontologías... A combinación de todos eles permite comprender diferentes ordes, pero ao mesmo tempo fai máis sensible aos erros. A precisión de cada una destas tecnoloxías non é do 100%, e os erros que poden producirse en cada una delas acumúlanse no resultado global.

Con todo, este tipo de sistemas obteñen mellores resultados en dominios concretos e/ou limitados, como é o caso de Siri, no que as conversacións se limitan ao que normalmente pode facer un móbil, o que facilita enormemente a comprensión do que se lle di. Doutra banda, o coñecemento do contexto tamén axuda moito a este tipo de axentes, e nun smartphone temos moita información do contexto: posición (pódese coñecer a través de GPS ou antenas de teléfono), contactos da axenda, procuras anteriores, webs navegadas previamente, chamadas anteriores...

Axentes en eúscaro?

É sabido que Apple a miúdo marca a tendencia, e seguramente nun futuro próximo comezaremos a ver máis axentes de diálogo nos smartphones da competencia, ou por que non, noutros dispositivos (tablets, e-books, computadores...). Por exemplo, paira teléfonos con sistema operativo Android xa hai moitas aplicacións como Siri (Jeannie, Andy, Cloe, Iris, Vlingo, Speaktoit Assistant, Risi...). Algúns deles existían antes de Siri e grazas a el gañaron visibilidade, pero outros viñeron despois. O único que se necesita para que os axentes de conversación teñan una difusión definitiva nos móbiles Android é que o sistema operativo traia un deles preinstalado e seleccionado por defecto, como ocorreu nos iPhones. E parece que Google está a facelo: Di que na seguinte versión de Android traerá instalado por defecto un axente de diálogo desenvolvido por el, chamado Majel.

Estes axentes de linguaxe natural funcionan cunha ou varias linguas. Siri, por exemplo, está en inglés, francés e alemán; algunhas aplicacións paira Android tamén están en castelán. Pero aínda non hai axentes de conversación que saiban eúscaro paira móbiles. E si no futuro fanse de uso cotián, necesitamos que tamén sexan en eúscaro.

En 2008, dentro do proxecto de investigación de tecnoloxías lingüísticas AnHitz, a Fundación Elhuyar, os grupos de investigación IXA e Aholkularitza da UPV e os centros de investigación Vicomtech e Robotiker-Tecnalia realizaron una demo dun axente de fala, AnHitz. Tratábase dun experto virtual en ciencia e tecnoloxía que respondía a preguntas nestes campos e permitía realizar procuras multilingües. E en 2011 estas mesmas institucións desenvolveron o demo doutro axente de diálogo dentro do proxecto BerbaTek, nesta ocasión un titor persoal paira o ensino de idiomas. En ambos os casos, a voz e a linguaxe natural son a forma na que se produce a interacción, e esta tecnoloxía é igualmente aplicable ás accións que se poden realizar nun móbil. Por tanto, só fai falta que os produtores de móbil mostren interese polo eúscaro paira ser axentes de conversación que saben eúscaro nos móbiles.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila