Cercadors d'Internet, evolució constant

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Cercadors d'Internet, evolució constant
01/05/2010 | Leturia Azkarate, Igor | Informático i investigador
(Foto: © Llegeixo Blanchette/350RF)

Internet és el major banc de coneixement a l'abast de la humanitat. Per a trobar la informació que vulguem necessitem cercadors com Google, Yahoo o Bing. Al principi només buscaven paraules, però cada vegada tenen més possibilitats. I comencen a aparèixer nous tipus de cercadors.

Quan es va crear la web els cercadors eren molt simples. Buscaven documents amb paraules o paraules donades, després ordenar-les segons uns criteris generals i punt. Però tenien molts problemes: per exemple, en moltes ocasions els resultats no estaven en l'idioma que volíem; o no buscaven els derivats de la paraula buscada; ni tan sols els sinònims del candidat; etc. Amb el temps, els cercadors han solucionat aquests problemes. Algunes opcions s'han integrat directament en les cerques i unes altres s'ofereixen en opcions avançades. A més, s'han creat cercadors especialitzats que resolen alguns d'aquests problemes.

Millores segons idioma

Una de les primeres millores va ser la detecció del llenguatge. Mitjançant l'ús de les tecnologies lingüístiques, els cercadors són capaços de detectar en quin idioma es troba una pàgina web, oferint només pàgines d'un idioma concret. A més, quan l'idioma de les pàgines és conegut, ofereixen a la pàgina un tractament específic en funció d'aquest idioma. Per exemple, apliquen stemming o mala herba lematització a totes les paraules i aconsegueixen que la cerca s'ajusti al lema de la paraula, superant el problema dels derivats esmentats.

No obstant això, els principals cercadors només ho fan amb les llengües més importants o amb major presència en la xarxa, i no és el cas del basc. En els casos en els quals es desitgi obtenir resultats únicament en basc i mitjançant lema, es pot utilitzar el cercador Elebila (http://www.elebila.eu), un cercador comercialitzat per Eleka basat en la tecnologia del grup I+D de la Fundació Elhuyar.

Multilingüisme

En altres casos ens interessa el contrari, és a dir, obtenir les pàgines web més interessants sobre una determinada cosa, estiguin en qualsevol idioma. La línia de recerca que té per objecte facilitar això es denomina cerca d'informació interlingüïstica. La paraula o paraules que es volen buscar es tradueixen a altres idiomes i es realitzen cerques en ells, retornant a continuació els resultats més significatius de cada idioma. Per a tancar el cercle, tots els resultats es poden traduir a la llengua inicial mitjançant traducció automàtica.

Alguns exemples experimentals poden trobar-se en http://terpconnect.umd.edu/~dlrg/clir/systems.html. En els cercadors comercials Google és l'únic que fa una cosa així a través del servei Google Translated Search (http://translate.google.com/translate_s). Així, per exemple, podem demanar que busquin " bars in Moscow " (" bars a Moscou ") en pàgines en rus. Ell traduirà la pregunta al rus, buscarà i retornarà els resultats a l'anglès.

Quant al basc, el grup d'I+D de la Fundació Elhuyar haurà de publicar pròximament el cercador de ciències interlingüïstiques Zientzianitz. El que busquem en basc ho buscarà en les webs científiques més significatives en basca, castellà i anglès.

Basada en el significat

Pot ser que hi hagi diverses paraules que ens indiquin el concepte que busquem. Però el cercador només ens retornarà les pàgines que continguin aquesta paraula concreta. Per a millorar els resultats es pot utilitzar la tècnica denominada difusió de la pregunta, que consisteix a buscar també sinònims o variants de la paraula. Google, per exemple, cerca també sinònims col·locant el signe ~ abans de la paraula. El cercador Elebila en basc no buscarà automàticament, però podrà seleccionar variants o sinònims de la paraula.

D'altra banda, si la paraula que busquem té més d'un significat, normalment només ens interessaran els resultats associats a un d'ells. Traduir només ells és de gran ajuda, o almenys mostrar els resultats agrupats per diferents significats. El cercador de Bing Reference de Microsoft (http://www.bing.com/reference) --només sobre articles de Wikipedia, en el seu cas- o el cercador Haki (http://www.hakia.com) intenten fer una cosa així.

En qualsevol cas, per a implementar aquestes opcions és necessari que el cercador endevini quin dels significats de la paraula li interessa a l'usuari. Hi ha diverses maneres de fer-ho. Una d'elles és preguntar directament a l'usuari quin és el significat que li interessa o si la paraula ha estat traduïda correctament. Una altra és intentar endevinar el significat a través de les tecnologies lingüístiques utilitzant el context que proporcionen les altres paraules, però per a això la cerca ha d'estar composta per diverses paraules. I una altra és intentar endevinar el significat aprofitant l'historial de cerca de l'usuari o la seva ubicació geogràfica. Això últim és el que fa Google si ho autoritzem expressament.

Responent a preguntes

En alguns casos ens dirigim a Internet a la recerca de la resposta concreta d'una pregunta. Si fem una pregunta a un cercador comú ens retornarà la llista de documents que contenen les paraules de la pregunta, però també hi ha sistemes capaços de respondre a les preguntes. Alguns utilitzen textos i tècniques de cerca d'informació i tecnologies lingüístiques, com el sistema START del MIT (http://start.csail.mit.edu/) o el desenvolupament del Grup IXA Taldea, Ihardetsi, que respon a preguntes en basca. Uns altres utilitzen el coneixement estructurat i el raonament automàtic, com Wolfram Alpha (http://www.wolframalpha.com) o TrueKnowledge (http://www.trueknowledge.com). I també estan desenvolupant els usuaris de la web semàntica, com la DBPedia (http://dbpedia.org).

No hi ha dubte que els cercadors han evolucionat molt des del seu origen i continuen millorant en l'actualitat. Gràcies a ells, i gràcies als nous cercadors que encara es troben en una situació bastant experimental i ofereixen noves capacitats i possibilitats, les cerques que es realitzaran en la web en el futur segur que se simplificaran molt.

Leturia Azkarate, Igor
Serveis
264
2010
Serveis
016
Internet; Programari
Món digital
Uns altres
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila