L'accès multimodal est défini comme interopérabilité multiple avec un système. Sur les ordinateurs classiques on utilise habituellement le clavier et la souris, mais il y a d'autres moyens comme les télécommandes, les écrans tactiles, la voix... Et au niveau de la recherche il y a d'autres mouvements oculaires, mentaux et corporels, langage des signes, signaux électriques cérébraux...
Ces modes de capture améliorent souvent la convivialité : par exemple, pour interagir à partir du canapé avec un magnétoscope, il est plus approprié d'utiliser la télécommande qu'un clavier et une souris ; ou pour fonctionner sur un téléphone mobile, seuls ces petits claviers peuvent donner des commandes vocales. Mais ils servent également à améliorer l'accessibilité en cas de handicap ou d'invalidité : via une interface vocale, l'aveugle peut utiliser un ordinateur ; ou en cas de handicap profond, des mouvements oculaires ou des signaux électriques cérébraux peuvent être utilisés comme interface.
Il y a des périphériques qui implémentent ce type d'interfaces, mais ils ont besoin d'un logiciel spécial pour interpréter et envoyer nos commandes, ce qui n'est pas valable pour tous les systèmes. C'est pourquoi W3C essaie de standardiser des protocoles pour certains modes d'accès afin que les navigateurs puissent implémenter ces protocoles standard et ainsi pouvoir utiliser ces nouveaux types d'accès lorsqu'ils naviguent sur n'importe quel appareil.
Pour interagir avec un téléphone mobile et naviguer sur Internet, il est très approprié de donner des ordres à travers la voix. D'une part, tous les téléphones ont un microphone et nous sommes habitués à utiliser la voix avec elle. D'autre part, il s'agit de petits dispositifs avec de petits claviers, ou simplement des claviers numériques, sur lesquels il faut appuyer plusieurs touches pour écrire une seule lettre, ou les claviers qui se chevauchent sur l'écran tactile sont petits et inconfortables (pour les lettres, les chiffres et les symboles, il faut passer d'un clavier à l'autre). Enfin, les appareils les plus avancés disposent également d'applications de type GPS, où il est indispensable d'avoir les mains libres.
Le W3C a une norme appelée VoiceXML qui sert aux applications vocales et qui est interprétée par un navigateur vocal. Il a de nombreuses applications: call-center, suivi des paquets dans les entreprises de transport, messagerie vocale... Mais cette norme utilise uniquement la voix, les commandes sont données avec reconnaissance vocale et les réponses avec synthèse vocale.
Sur la base d'un sous-ensemble de ce VoiceXML et du HTML, IBM, Motorola et Opera ont défini le protocole XHTML+Voice pour pouvoir réaliser des applications web visuelles et vocales et l'ont envoyé à l'organisation W3C pour approbation standard. Pour le moment, il n'est pas approuvé, mais étant donné qu'avec HTML5 les applications Web vont au-delà du champ de vision, ils peuvent être acceptés à l'avenir. Dans tous les cas, le navigateur Opera l'a mis en œuvre, il est donc possible de réaliser des applications Web intégrant la vision et la voix pour les téléphones mobiles ou les ordinateurs utilisant ce navigateur.
D'autre part, les appareils mobiles ont également introduit de nouvelles formes de navigation tactile. Jusqu'à présent, les actions qui ont été menées avec la souris ont consisté essentiellement à cliquer, double-cliquer et faire glisser et déposer. La plupart des écrans tactiles interprètent ces mêmes actions. Mais l'iPhone a popularisé ce qu'on appelle les clins : pouvoir effectuer différentes actions en fonction du mouvement des doigts, comme tourner une photo, et pouvoir utiliser plus d'un doigt, comme par exemple la répartition de deux doigts ensemble pour zoomer. Comme la plupart des appareils mobiles qui permettent de naviguer sur Internet disposent d'un écran tactile et sont de plus en plus visibles sur les ordinateurs domestiques ou autres appareils de loisirs, il serait très intéressant d'utiliser ce genre de gestes dans les applications Web. Vous pouvez également utiliser des gestes manuels à un seul doigt avec la souris.
Le W3C a une norme appelée InkML. C'est la langue dans laquelle est décrite l'introduction des tablettes à dessiner à l'origine, mais il sert également à décrire les gestes et mouvements réalisés sur un écran tactile, puis les interpréter et les transformer en actions. Bien qu'il n'ait pas encore été suffisamment développé, puisqu'il s'agit d'une norme W3C, il est logique qu'à l'avenir cette norme puisse être utilisée aussi dans la navigation et donc aussi dans les navigateurs on puisse utiliser des gestes manuels.
Compte tenu des lignes de travail du W3C, il semble que dans l'avenir, les tendances provenant du web mobile, de la navigation vocale et des gestes manuels seront de plus en plus visibles dans les navigateurs Internet. Lorsque cela se produit, l'expérience Internet sera similaire à celle que vous voyez dans Minority report.