Web semàntica, tecnologies existents i necessàries

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En l'article de maig, vam veure els problemes que té la World Wide Web ideada per Sir Tim Berners-Lee i el format HTML que la sustenta, i expliquem succintament què és la solució proposada pel propi Berners-Lee, la web semàntica. A continuació es mostren les tecnologies i exemples que es troben sota la web semàntica, així com els problemes que existeixen per a fer-la realitat.
Web semàntica, tecnologies existents i necessàries
01/06/2009 | Leturia Azkarate, Igor | Informático i investigador
(Foto: 12RF)

En la web semàntica es descriuen mitjançant etiquetes els objectes, les persones... i les seves relacions. En les etiquetes, en lloc d'explicar la forma i estructura de la pàgina, es recull el significat dels elements d'aquesta. Això permet crear una xarxa paral·lela a la xarxa HTML, una base de coneixement comprensible per les màquines, codificada en formats expressius de semàntica. Una vegada enteses les màquines, podrien tractar la informació de manera eficaç i obrir el camí a milers d'aplicacions.

Tecnologies: RDF, OWL...

No obstant això, per a poder definir tots els conceptes presents en la xarxa, és necessari disposar d'esquemes i formats d'etiquetatge semàntic. W3C ha definit aquests formats en diferents estàndards, sent RDF i OWL els més importants i coneguts.

RDF ( Resource Description Framework ) és un format de descripció de recursos basat en XML. Es basa en tres elements: recursos, propietats i valors de propietats. El recurs és el que es descriu i s'identifica per una URL (identificador web o adreça). La propietat és una característica del recurs que es desitja descriure. Els valors són valors concrets de les característiques que es volen descriure (veure exemple en la pàgina següent).

D'aquesta manera podem descriure el que volem. Però cal posar-se d'acord en les etiquetes que cal utilitzar per a descriure cada tipus de cosa (persones, grups de música, llibres...), si no, les màquines seguirien sense entendre-les. A això contribueix el llenguatge OWL ( Web Ontology Language ). OWL permet definir com es descriuran els objectes o entitats d'una determinada àrea de coneixement o vida.

Així podria descriure's un número de la revista Elhuyar i els seus articles per RDF
es mostra de forma simplificada i senzilla, utilitzant altres noms d'etiqueta en format RDF

Un exemple real: Format RSS

Un petit exemple de la capacitat de la web semàntica ho tenim entre nosaltres des de fa temps: el format RSS ( Really Simple Syndication ) que utilitzen els blogs des del principi i avui dia altres informatius d'Internet. De fet, es tracta d'un tipus RDF (el nom original del qual és RDF Site Summary) especialitzat en la descripció de notícies. Els blogs van introduir una gran innovació, ja que van permetre a l'usuari crear contingut en Internet sense coneixements tècnics d'informàtica o HTML, i molta gent nova va començar a posar textos en Internet. Però els blogs no haurien tingut tant d'èxit si no fos per format RSS.

De fet, si els blogs només s'haguessin publicat en format HTML, per a un lector interessat en els temes d'alguns blogs no seria fàcil fer un seguiment d'aquests. Hauria d'accedir periòdicament a tots ells per a veure si hi ha una cosa nova. I aquest treball, a més, moltes vegades perquè no hi hagi res nou, o perquè no es recordi del que llegíem l'última vegada... Al final no podria fer més que el seguiment d'uns pocs blogs.

Però els blogs, a més de la versió HTML per a persones, també tenien la versió RSS per a màquines. En aquesta versió apareixien les últimes entrades o articles, cadascun d'ells ben diferenciat per etiquetes, i ben estructurat el títol de cadascun, l'autor, la data, el resum, l'enllaç, etc., de manera que les màquines les comprenguin. D'aquesta forma es van crear lectors d'RSS per a fer un seguiment dels blogs que cadascun té al seu gust. El lector realitza un seguiment periòdic dels RSS dels nostres blogs favorits i mostra a l'usuari només les notícies existents des de la seva última entrada, la qual cosa permet fer un seguiment de desenes o centenars de blogs. També es van crear cercadors especialitzats en blogs, serveis de recollida i filtrat d'RSS, webs de periòdics i revistes, xarxes socials, etc. Un dels "culpables" reals de la revolució de la Web 2.0 va ser l'RSS.

Pensa que si un simple etiquetatge semàntic per a blogs i notícies ho ha fet, què no ocorrerà quan altres conceptes com a persones, mercaderies, esdeveniments s'etiquetin semànticament...

Amb els blogs es van crear cercadors especialitzats en blogs i serveis de captació i filtrat d'RSS, així com webs de periòdics i revistes, xarxes socials, etc. Un dels "culpables" reals de la revolució de la Web 2.0 va ser l'RSS.
Frank Podgoraiak/350RF

Continguts de la web semàntica

No obstant això, tot és bo. Fa ja uns anys que va sorgir la idea de la web semàntica i li està costant molt fer-ho. No és tasca fàcil. D'una banda, cal definir i consensuar ontologies per a tots els conceptes que existeixen, i encara que hi ha coses que ja s'han fet, és un treball enorme.

Però, d'altra banda, cosa que és més important, després el contingut ha de crear-se en aquests formats, i això pot ser molt laboriós. No podem esperar que la gent que cregui la web s'etiqueti manualment en format RDF. Les pàgines web es creen des de fa temps utilitzant eines que hauran de ser les que adaptin i generin contingut en format semàntic, com les plataformes de blogs publiquen directament l'RSS. En determinats casos, és d'esperar que això ocorri amb certa rapidesa, com per exemple en aquells en els quals el contingut és bastant estructurat en si mateix (calendaris d'esdeveniments, per exemple) o en els quals són d'interès per a les empreses (per exemple, fulles descriptives de productes en botigues online).

Serà més difícil etiquetar semànticament tota la informació que apareix actualment en els textos escrits en llenguatge natural. Quan en un text es descriuen les persones, els llibres, les seves característiques, les seves relacions, etc., etiquetar semànticament això, fins i tot amb ajuda d'eines visuals, és una tasca tremenda. I no es pot fer automàticament, com en el cas del calendari o dels productes de les botigues...

La màquina entén el text?

Gràcies a la web semàntica, podrem buscar la paraula sting i rebre només entrades sobre el músic.
Eric Miller/W3C

O sí. En diversos experiments, s'estan utilitzant tècniques de Processament del Llenguatge Natural (NLP) per a extreure automàticament l'etiquetatge semàntic de textos convencionals, a vegades amb èxit. Les eines web poden integrar aquest tipus de tècniques de LNP i ajudar el contingut creatiu a crear un etiquetatge semàntic en un futur no tan llunyà. No obstant això, si les màquines són realment capaces de fer-ho bé, no és necessària la web semàntica, la qual cosa significa que les màquines són capaces d'entendre "" el text i que els cercadors i altres agents d'Internet podran tractar directament els textos en format HTML d'una manera eficaç.

No sabem qui arribarà abans, la web semànticament etiquetada o les màquines comprendre la semàntica o el significat del text. I, en el primer cas, no se sap quant contingut estarà en la web semàntica: semàntica en la qual s'etiquetarà tota la web, o només algunes coses (les més senzilles i d'interès empresarial), o alguna cosa entre ambdues... En qualsevol cas, d'una manera o una altra, el significat en la web tindrà cada vegada més importància, i gràcies a la semàntica tindrem serveis cada vegada millors. El propi Sir Tim Berners-Lee ha dit al març d'enguany: "La web no està acabada. La web actual és només la punta de l'iceberg. Arribaran noves tecnologies, molt més poderoses, que ens permetin fer coses que mai pensaríem. El millor està a punt d'arribar". Així sigui!

Igor Leturia Azkarate. Informàtic i investigador.

Leturia Azkarate, Igor
Serveis
254
2009
Seguretat
022
Internet
Món digital
24 hores
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila