Ja arriben els agents de diàleg

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Una de les principals i úniques novetats del model 4S de l'iPhone presentat per Apple a l'octubre de l'any passat és l'agent de diàleg Siri. En lloc de realitzar l'accés a les aplicacions i opcions del telèfon a través de la pantalla tàctil i el teclat, aquesta aplicació que porta preinstal·lada el model iPhone 4S l'ofereix mitjançant veu i llenguatge natural. I com ocorre amb tot el que fa Apple, segurament aquest tipus d'agents de diàleg s'aniran ampliant en telèfons intel·ligents i tauletes.
badatoz-elkarrizketa-agenteak
Ed. © istockphoto.com/manley 099

Encara que per a molts les coses no existeixen fins que Apple les faci, els agents de diàleg no són d'ahir al matí. Un dels pioners més coneguts és l'ESGLÉSIA, desenvolupada en el MIT en 1966; no funcionava per veu, sinó per teclat i pantalla, però era capaç de mantenir una conversa en llenguatge natural.

Abans de Siri d'Apple, des de 2010 ja existia l'aplicació Google Voice Actions en mòbils Android. Amb això també es crea la interacció per veu, però no és com la de Siri: L'aplicació de Google entén certs comandos (" llistin to [grup, àlbum, cançó]", " call [algú de l'agenda, una empresa]", " send e-mail to [algú de l'agenda]", " map of [ciutat]", " navigate to [adreça, empresa]", " search [cerca]"...); El llenguatge que podem utilitzar amb Siri no està limitat, és a dir, té interfície per llenguatge natural. És cert que, al cap i a la fi, es poden fer gairebé el mateix amb tots dos, però les converses amb Siri són més naturals i la resposta també ens "llegeix", en lloc de mostrar-la només en la pantalla. D'altra banda, amb Siri el risc de no comprendre o malentendre com li diem les coses és major, però en els casos en els quals no ho ha entès o no està segur, torna a preguntar-se, o demana que s'especifiqui més, o que es ratifiqui.

Revolució no, però innovació significativa

Però a Siri no cal restar-li cap mèrit. És la primera vegada que un agent de llenguatge natural i veu s'introdueix en un dispositiu de gran difusió. I encara que no és perfecte i a vegades falla, cal reconèixer que en general aconsegueix bons resultats. De fet, darrere de la tecnologia de Siri es troba una empresa dedicada íntegrament a això, també dita Siri, que Apple va comprar a l'abril de 2010.

Siri utilitza diferents tecnologies per a fer el que fa: coneixement de la veu, processament del llenguatge, ontologies... La combinació de tots ells permet comprendre diferents ordres, però al mateix temps fa més sensible als errors. La precisió de cadascuna d'aquestes tecnologies no és del 100%, i els errors que poden produir-se en cadascuna d'elles s'acumulen en el resultat global.

No obstant això, aquest tipus de sistemes obtenen millors resultats en dominis concrets i/o limitats, com és el cas de Siri, en el qual les converses es limiten al que normalment pot fer un mòbil, la qual cosa facilita enormement la comprensió del que se li diu. D'altra banda, el coneixement del context també ajuda molt a aquesta mena d'agents, i en un telèfon intel·ligent tenim molta informació del context: posició (es pot conèixer a través de GPS o antenes de telèfon), contactes de l'agenda, cerques anteriors, webs navegades prèviament, anomenades anteriors...

Agents en basc?

És sabut que Apple sovint marca la tendència, i segurament en un futur pròxim començarem a veure més agents de diàleg en els telèfons intel·ligents de la competència, o per què no, en altres dispositius (tauletes, e-books, ordinadors...). Per exemple, per a telèfons amb sistema operatiu Android ja hi ha moltes aplicacions com Siri (Jeannie, Andy, Cloe, Iris, Vlingo, Speaktoit Assistant, Risi...). Alguns d'ells existien abans de Siri i gràcies a ell han guanyat visibilitat, però uns altres han vingut després. L'única cosa que es necessita perquè els agents de conversa tinguin una difusió definitiva en els mòbils Android és que el sistema operatiu porti un d'ells preinstal·lat i seleccionat per defecte, com ha ocorregut en els iPhones. I sembla que Google ho està fent: Diu que en la següent versió d'Android portarà instal·lat per defecte un agent de diàleg desenvolupat per ell, anomenat Majel.

Aquests agents de llenguatge natural funcionen amb una o diverses llengües. Siri, per exemple, està en anglès, francès i alemany; algunes aplicacions per a Android també estan en castellà. Però encara no hi ha agents de conversa que sàpiguen basca per a mòbils. I si en el futur es fan d'ús quotidià, necessitem que també siguin en basc.

En 2008, dins del projecte de recerca de tecnologies lingüístiques AnHitz, la Fundació Elhuyar, els grups de recerca IXA i Aholkularitza de la UPV i els centres de recerca Vicomtech i Robotiker-Tecnalia van realitzar una demo d'un agent de parla, AnHitz. Es tractava d'un expert virtual en ciència i tecnologia que responia a preguntes en aquests camps i permetia realitzar cerques multilingües. I en 2011 aquestes mateixes institucions han desenvolupat la demo d'un altre agent de diàleg dins del projecte BerbaTek, en aquesta ocasió un tutor personal per a l'ensenyament d'idiomes. En tots dos casos, la veu i el llenguatge natural són la forma en la qual es produeix la interacció, i aquesta tecnologia és igualment aplicable a les accions que es poden realitzar en un mòbil. Per tant, només fa falta que els productors de mòbil mostrin interès pel basc per a ser agents de conversa que saben basca en els mòbils.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila