Bien que pour beaucoup de choses n'existent pas jusqu'à ce qu'Apple les fasse, les agents de dialogue ne sont pas d'hier matin. L'un des pionniers les plus connus est l'ÉGLISE, développée au MIT en 1966; elle ne fonctionnait pas par voix, mais par clavier et écran, mais était capable de maintenir une conversation en langage naturel.
Avant Siri d'Apple, l'application Google Voice Actions sur mobile Android existait déjà depuis 2010. Cela crée également l'interaction vocale, mais ce n'est pas comme celle de Siri: L'application Google comprend certaines commandes (" listen to [groupe, album, chanson]", " call [quelqu'un de l'agenda, une entreprise]", " send e-mail to [quelqu'un de l'agenda]", " map of [ville]", " navigate to [adresse, entreprise]", " search [recherche]"...); Le langage que nous pouvons utiliser avec Siri n'est pas limité, c'est-à-dire qu'il a une interface par langage naturel. Il est vrai que, après tout, on peut faire presque la même chose avec les deux, mais les conversations avec Siri sont plus naturelles et la réponse nous "lit", au lieu de la montrer seul sur l'écran. D'autre part, avec Siri le risque de ne pas comprendre ou de mal comprendre comment nous disons les choses est plus grand, mais dans les cas où vous ne l'avez pas compris ou n'êtes pas sûr, vous vous demandez à nouveau, ou demandez à préciser plus, ou à ratifier.
Mais il ne faut pas soustraire à Siri aucun mérite. C'est la première fois qu'un agent de langage naturel et la voix est introduit dans un dispositif de grande diffusion. Et bien qu'il ne soit pas parfait et parfois échoue, il faut reconnaître qu'il obtient généralement de bons résultats. En fait, derrière la technologie de Siri se trouve une société entièrement dédiée à cela, également appelé Siri, que Apple a acheté en avril 2010.
Siri utilise différentes technologies pour faire ce qu'il fait : connaissance de la voix, traitement du langage, ontologies... La combinaison de tous permet de comprendre différents ordres, mais en même temps rend plus sensible aux erreurs. La précision de chacune de ces technologies n'est pas de 100%, et les erreurs qui peuvent se produire dans chacune d'elles s'accumulent dans le résultat global.
Cependant, ce type de système obtient de meilleurs résultats dans des domaines spécifiques et/ou limités, comme c'est le cas de Siri, où les conversations sont limitées à ce qu'un mobile peut normalement faire, ce qui facilite grandement la compréhension de ce qu'on lui dit. D'autre part, la connaissance du contexte aide également beaucoup ce type d'agents, et sur un smartphone nous avons beaucoup d'informations sur le contexte: position (peut être connu via GPS ou antennes téléphoniques), contacts de l'agenda, recherches antérieures, sites précédemment consultés, appels précédents...
Il est connu qu'Apple marque souvent la tendance, et sûrement dans un proche avenir nous commencerons à voir plus d'agents de dialogue sur les smartphones concurrents, ou pourquoi pas, sur d'autres appareils (tablettes, e-books, ordinateurs...). Par exemple, pour les téléphones fonctionnant sous Android, il existe déjà de nombreuses applications comme Siri (Jeannie, Andy, Cloe, Iris, Vlingo, Speaktoit Assistant, Risi...). Certains d'entre eux existaient avant Siri et grâce à lui ont gagné en visibilité, mais d'autres sont venus après. La seule chose qui est nécessaire pour que les agents de conversation aient une diffusion définitive sur les mobiles Android est que le système d'exploitation apporte l'un d'eux préinstallé et sélectionné par défaut, comme cela est arrivé dans les iPhones. Et il semble que Google fait: Il dit que dans la prochaine version d'Android apportera par défaut installé un agent de dialogue développé par lui, appelé Majel.
Ces agents de langage naturel fonctionnent avec une ou plusieurs langues. Siri, par exemple, est en anglais, français et allemand; certaines applications Android sont également en espagnol. Mais il n'y a pas encore d'agents de conversation qui sachent euskera pour mobile. Et si dans le futur ils sont faits d'usage quotidien, nous devons aussi être en basque.
En 2008, dans le cadre du projet de recherche sur les technologies linguistiques AnHitz, la Fondation Elhuyar, les groupes de recherche IXA et Aholkularitza de l'UPV et les centres de recherche Vicomtech et Robotiker-Tecnalia ont réalisé une démo d'un agent parlant, AnHitz. Il s'agissait d'un expert virtuel en science et technologie qui répondait à des questions dans ces domaines et permettait des recherches multilingues. Et en 2011, ces mêmes institutions ont développé la démo d'un autre agent de dialogue au sein du projet BerbaTek, à cette occasion un tuteur personnel pour l'enseignement des langues. Dans les deux cas, la voix et le langage naturel sont la façon dont l'interaction se produit, et cette technologie est également applicable aux actions qui peuvent être effectuées sur un mobile. Par conséquent, il suffit que les producteurs de mobile montrent l'intérêt pour le basque pour être des agents de conversation qui savent basque sur les mobiles.