El acceso multimodal se define como la interoperabilidad múltiple con un sistema. En los ordenadores convencionales se utilizan habitualmente el teclado y el ratón, pero existen otros medios como los mandos a distancia, las pantallas táctiles, la voz... Y a nivel de investigación hay otros movimientos oculares, mentales y corporales, lenguaje de signos, señales eléctricas cerebrales...
Estos modos de captura a menudo mejoran la usabilidad: por ejemplo, para interactuar desde el sofá con un videograbador es más apropiado utilizar el mando a distancia que un teclado y un ratón; o para operar en un teléfono móvil sólo estos pequeños teclados pueden dar órdenes por voz. Pero también sirven para mejorar la accesibilidad en casos de discapacidad o discapacidad: a través de una interfaz de voz, el ciego puede utilizar un ordenador; o en casos de minusvalías profundas, se pueden utilizar los movimientos oculares o las señales eléctricas cerebrales como interfaz.
Hay dispositivos que implementan este tipo de interfaces, pero necesitan un software especial para interpretar y enviar nuestras órdenes, que no es válido para todos los sistemas. Por ello, W3C está tratando de estandarizar protocolos para ciertos modos de acceso para que los navegadores puedan implementar estos protocolos estándar y así poder utilizar estos nuevos tipos de acceso cuando naveguen en cualquier dispositivo.
Para interactuar con un teléfono móvil y poder navegar por Internet, es muy apropiado dar órdenes a través de la voz. Por un lado, todos los teléfonos tienen micrófono y estamos acostumbrados a usar la voz con él. Por otro lado, se trata de dispositivos pequeños con pequeños teclados, o simplemente teclados numéricos, en los que hay que pulsar muchas teclas para escribir una sola letra, o los teclados que se solapan en la pantalla táctil son pequeños e incómodos (para letras, números y símbolos hay que cambiar de un teclado a otro). Por último, los dispositivos más avanzados también disponen de aplicaciones tipo GPS, donde es imprescindible tener las manos libres.
El W3C tiene un estándar llamado VoiceXML que sirve para aplicaciones de voz y que se interpreta a través de un navegador de voz. Tiene muchas aplicaciones: call-center, seguimiento de paquetes en empresas de transporte, correo electrónico por voz... Pero este estándar sólo utiliza voz, las órdenes se dan con reconocimiento de voz y las respuestas con síntesis de voz.
Basándose en un subconjunto de este VoiceXML y en el HTML, IBM, Motorola y Opera definieron el protocolo XHTML+Voice para poder realizar aplicaciones web visuales y de voz y lo enviaron a la organización W3C para su aprobación como estándar. Por el momento no está aprobado, pero dado que con HTML5 las aplicaciones web van más allá del campo de la visión, es posible que se acepten en el futuro. En cualquier caso, el navegador Opera lo tiene implementado, por lo que ya es posible realizar aplicaciones web que integren visión y voz para teléfonos móviles o ordenadores que utilizan este navegador.
Por otro lado, los dispositivos móviles también han introducido nuevas formas de navegación táctil. Hasta el momento las acciones que se han llevado a cabo con el ratón han consistido básicamente en hacer clic, hacer doble click y arrastrar y soltar. La mayoría de pantallas táctiles interpretan estas mismas acciones. Pero el iPhone popularizó los llamados guiños de mano: poder realizar diferentes acciones en función del movimiento de los dedos, como girar una foto, y poder utilizar más de un dedo, como por ejemplo el reparto de dos dedos juntos para hacer zoom. Dado que la mayoría de los dispositivos móviles que permiten navegar por Internet disponen de pantalla táctil y cada vez se ven más en ordenadores domésticos u otros aparatos de ocio, sería muy interesante utilizar este tipo de gestos en aplicaciones web. También se pueden usar gestos manuales de un solo dedo con el ratón.
El W3C tiene un estándar llamado InkML. Es el idioma en el que se describe la introducción de las tablets para dibujar en origen, pero también sirve para describir los gestos y movimientos realizados en una pantalla táctil, para luego interpretarlos y convertirlos en acciones. Aunque todavía no se ha desarrollado lo suficiente, al tratarse de un estándar de W3C, es lógico que en el futuro este estándar pueda ser utilizado también en la navegación y, por lo tanto, también en los navegadores se puedan utilizar gestos manuales.
A la vista de las líneas de trabajo del W3C, parece que en el futuro se van a ver cada vez más en los navegadores de Internet las tendencias que provienen de la web móvil, la navegación por voz y los gestos manuales. Cuando esto ocurra, la experiencia de Internet será similar a la que se ve en Minority report.