L'accés multimodal es defineix com la interoperabilitat múltiple amb un sistema. En els ordinadors convencionals s'utilitzen habitualment el teclat i el ratolí, però existeixen altres mitjans com els comandaments a distància, les pantalles tàctils, la veu... I a nivell de recerca hi ha altres moviments oculars, mentals i corporals, llenguatge de signes, senyals elèctrics cerebrals...
Aquestes maneres de captura sovint milloren la usabilitat: per exemple, per a interactuar des del sofà amb un videograbador és més apropiat utilitzar el comandament a distància que un teclat i un ratolí; o per a operar en un telèfon mòbil només aquests petits teclats poden donar ordres per veu. Però també serveixen per a millorar l'accessibilitat en casos de discapacitat o discapacitat: a través d'una interfície de veu, el cec pot utilitzar un ordinador; o en casos de minusvalideses profundes, es poden utilitzar els moviments oculars o els senyals elèctrics cerebrals com a interfície.
Hi ha dispositius que implementen aquest tipus d'interfícies, però necessiten un programari especial per a interpretar i enviar les nostres ordres, que no és vàlid per a tots els sistemes. Per això, W3C està tractant d'estandarditzar protocols per a certes maneres d'accés perquè els navegadors puguin implementar aquests protocols estàndard i així poder utilitzar aquests nous tipus d'accés quan naveguin en qualsevol dispositiu.
Per a interactuar amb un telèfon mòbil i poder navegar per Internet, és molt apropiat donar ordres a través de la veu. D'una banda, tots els telèfons tenen micròfon i estem acostumats a usar la veu amb ell. D'altra banda, es tracta de dispositius petits amb petits teclats, o simplement teclats numèrics, en els quals cal prémer moltes tecles per a escriure una sola lletra, o els teclats que se solapen en la pantalla tàctil són petits i incòmodes (per a lletres, números i símbols cal canviar d'un teclat a un altre). Finalment, els dispositius més avançats també disposen d'aplicacions tipus GPS, on és imprescindible tenir les mans lliures.
El W3C té un estàndard anomenat VoiceXML que serveix per a aplicacions de veu i que s'interpreta a través d'un navegador de veu. Té moltes aplicacions: call-center, seguiment de paquets en empreses de transport, correu electrònic per veu... Però aquest estàndard només utilitza veu, les ordres es donen amb reconeixement de veu i les respostes amb síntesis de veu.
Basant-se en un subconjunt d'aquest VoiceXML i en l'HTML, IBM, Motorola i Opera van definir el protocol XHTML+Voice per a poder realitzar aplicacions web visuals i de veu i ho van enviar a l'organització W3C per a la seva aprovació com a estàndard. De moment no està aprovat, però atès que amb HTML5 les aplicacions web van més enllà del camp de la visió, és possible que s'acceptin en el futur. En qualsevol cas, el navegador Opera el té implementat, per la qual cosa ja és possible realitzar aplicacions web que integrin visió i veu per a telèfons mòbils o ordinadors que utilitzen aquest navegador.
D'altra banda, els dispositius mòbils també han introduït noves formes de navegació tàctil. Fins al moment les accions que s'han dut a terme amb el ratolí han consistit bàsicament a fer clic, fer doble clic i arrossegar i deixar anar. La majoria de pantalles tàctils interpreten aquestes mateixes accions. Però l'iPhone va popularitzar les anomenades picades d'ullet de mà: poder realitzar diferents accions en funció del moviment dels dits, com girar una foto, i poder utilitzar més d'un dit, com per exemple el repartiment de dos dits junts per a fer zoom. Atès que la majoria dels dispositius mòbils que permeten navegar per Internet disposen de pantalla tàctil i cada vegada es veuen més en ordinadors domèstics o altres aparells d'oci, seria molt interessant utilitzar aquest tipus de gestos en aplicacions web. També es poden usar gestos manuals d'un sol dit amb el ratolí.
El W3C té un estàndard anomenat InkML. És l'idioma en el qual es descriu la introducció de les tauletes per a dibuixar en origen, però també serveix per a descriure els gestos i moviments realitzats en una pantalla tàctil, per a després interpretar-los i convertir-los en accions. Encara que encara no s'ha desenvolupat prou, en tractar-se d'un estàndard de W3C, és lògic que en el futur aquest estàndard pugui ser utilitzat també en la navegació i, per tant, també en els navegadors es puguin utilitzar gestos manuals.
A la vista de les línies de treball del W3C, sembla que en el futur es veuran cada vegada més en els navegadors d'Internet les tendències que provenen de la web mòbil, la navegació per veu i els gestos manuals. Quan això ocorri, l'experiència d'Internet serà similar a la que es veu en Minority report.