En la web semántica se describen mediante etiquetas los objetos, las personas... y sus relaciones. En las etiquetas, en lugar de explicar la forma y estructura de la página, se recoge el significado de los elementos de la misma. Esto permite crear una red paralela a la red HTML, una base de conocimiento entendible por las máquinas, codificada en formatos expresivos de semántica. Una vez entendidas las máquinas, podrían tratar la información de forma eficaz y abrir el camino a miles de aplicaciones.
Sin embargo, para poder definir todos los conceptos presentes en la red, es necesario disponer de esquemas y formatos de etiquetado semántico. W3C ha definido estos formatos en diferentes estándares, siendo RDF y OWL los más importantes y conocidos.
RDF ( Resource Description Framework ) es un formato de descripción de recursos basado en XML. Se basa en tres elementos: recursos, propiedades y valores de propiedades. El recurso es el que se describe y se identifica por una URL (identificador web o dirección). La propiedad es una característica del recurso que se desea describir. Los valores son valores concretos de las características que se quieren describir (ver ejemplo en la página siguiente).
De esta manera podemos describir lo que queremos. Pero hay que ponerse de acuerdo en las etiquetas que hay que utilizar para describir cada tipo de cosa (personas, grupos de música, libros...), si no, las máquinas seguirían sin entenderlas. A ello contribuye el lenguaje OWL ( Web Ontology Language ). OWL permite definir cómo se describirán los objetos o entidades de una determinada área de conocimiento o vida.
Un pequeño ejemplo de la capacidad de la web semántica lo tenemos entre nosotros desde hace tiempo: el formato RSS ( Really Simple Syndication ) que utilizan los blogs desde el principio y hoy en día otros informativos de Internet. De hecho, se trata de un tipo RDF (cuyo nombre original es RDF Site Summary) especializado en la descripción de noticias. Los blogs introdujeron una gran innovación, ya que permitieron al usuario crear contenido en Internet sin conocimientos técnicos de informática o HTML, y mucha gente nueva empezó a poner textos en Internet. Pero los blogs no habrían tenido tanto éxito si no fuera por formato RSS.
De hecho, si los blogs sólo se hubieran publicado en formato HTML, para un lector interesado en los temas de algunos blogs no sería fácil hacer un seguimiento de los mismos. Debería acceder periódicamente a todos ellos para ver si hay algo nuevo. Y ese trabajo, además, muchas veces para que no haya nada nuevo, o para que no se acuerde de lo que leíamos la última vez... Al final no podría hacer más que el seguimiento de unos pocos blogs.
Pero los blogs, además de la versión HTML para personas, también tenían la versión RSS para máquinas. En esta versión aparecían las últimas entradas o artículos, cada uno de ellos bien diferenciado por etiquetas, y bien estructurado el título de cada uno, el autor, la fecha, el resumen, el enlace, etc., de forma que las máquinas las comprendan. De esta forma se crearon lectores de RSS para hacer un seguimiento de los blogs que cada uno tiene a su gusto. El lector realiza un seguimiento periódico de los RSS de nuestros blogs favoritos y muestra al usuario sólo las noticias existentes desde su última entrada, lo que permite hacer un seguimiento de decenas o centenares de blogs. También se crearon buscadores especializados en blogs, servicios de recogida y filtrado de RSS, webs de periódicos y revistas, redes sociales, etc. Uno de los "culpables" reales de la revolución de la Web 2.0 fue el RSS.
Piensa que si un simple etiquetado semántico para blogs y noticias lo ha hecho, qué no ocurrirá cuando otros conceptos como personas, mercancías, eventos se etiqueten semánticamente...
Sin embargo, todo es bueno. Hace ya unos años que surgió la idea de la web semántica y le está costando mucho hacerlo. No es tarea fácil. Por un lado, hay que definir y consensuar ontologías para todos los conceptos que existen, y aunque hay cosas que ya se han hecho, es un trabajo enorme.
Pero, por otro lado, lo que es más importante, luego el contenido debe crearse en esos formatos, y eso puede ser muy laborioso. No podemos esperar que la gente que crea la web se etiquete manualmente en formato RDF. Las páginas web se crean desde hace tiempo utilizando herramientas que deberán ser las que adapten y generen contenido en formato semántico, como las plataformas de blogs publican directamente el RSS. En determinados casos, es de esperar que esto ocurra con cierta rapidez, como por ejemplo en aquellos en los que el contenido es bastante estructurado en sí mismo (calendarios de eventos, por ejemplo) o en los que son de interés para las empresas (por ejemplo, hojas descriptivas de productos en tiendas online).
Será más difícil etiquetar semánticamente toda la información que aparece actualmente en los textos escritos en lenguaje natural. Cuando en un texto se describen las personas, los libros, sus características, sus relaciones, etc., etiquetar semánticamente esto, incluso con ayuda de herramientas visuales, es una tarea tremenda. Y no se puede hacer automáticamente, como en el caso del calendario o de los productos de las tiendas...
O sí. En varios experimentos, se están utilizando técnicas de Procesamiento del Lenguaje Natural (NLP) para extraer automáticamente el etiquetado semántico de textos convencionales, a veces con éxito. Las herramientas web pueden integrar este tipo de técnicas de LNP y ayudar al contenido creativo a crear un etiquetado semántico en un futuro no tan lejano. Sin embargo, si las máquinas son realmente capaces de hacerlo bien, no es necesaria la web semántica, lo que significa que las máquinas son capaces de "entender" el texto y que los buscadores y otros agentes de Internet podrán tratar directamente los textos en formato HTML de una manera eficaz.
No sabemos quién llegará antes, la web semánticamente etiquetada o las máquinas comprender la semántica o el significado del texto. Y, en el primer caso, no se sabe cuánto contenido estará en la web semántica: semántica en la que se etiquetará toda la web, o sólo algunas cosas (las más sencillas y de interés empresarial), o algo entre ambas... En cualquier caso, de una manera u otra, el significado en la web va a tener cada vez más importancia, y gracias a la semántica tendremos servicios cada vez mejores. El propio Sir Tim Berners-Lee ha dicho en marzo de este año: "La web no está terminada. La web actual es sólo la punta del iceberg. Llegarán nuevas tecnologías, mucho más poderosas, que nos permitan hacer cosas que nunca pensaríamos. Lo mejor está a punto de llegar". ¡Así sea!
Igor Leturia Azkarate. Informático e investigador.