Buscadores de Internet, evolución constante

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Buscadores de Internet, evolución constante
01/05/2010 | Leturia Azkarate, Igor | Informático e investigador
(Foto: © Leo Blanchette/350RF)

Internet é o maior banco de coñecemento ao alcance da humanidade. Paira atopar a información que queiramos necesitamos buscadores como Google, Yahoo ou Bing. Ao principio só buscaban palabras, pero cada vez teñen máis posibilidades. E empezan a aparecer novos tipos de buscadores.

Cando se creou a web os buscadores eran moi simples. Buscaban documentos con palabras ou palabras dadas, logo ordenalas segundo uns criterios xerais e punto. Pero tiñan moitos problemas: por exemplo, en moitas ocasións os resultados non estaban no idioma que queriamos; ou non buscaban os derivados da palabra buscada; nin sequera os sinónimos do candidato; etc. Co tempo, os buscadores solucionaron estes problemas. Algunhas opcións integráronse directamente nas procuras e outras se ofrecen en opcións avanzadas. Ademais, creáronse buscadores especializados que resolven algúns destes problemas.

Melloras segundo idioma

Una das primeiras melloras foi a detección da linguaxe. Mediante o uso das tecnoloxías lingüísticas, os buscadores son capaces de detectar en que idioma atópase una páxina web, ofrecendo só páxinas dun idioma concreto. Ademais, cando o idioma das páxinas é coñecido, ofrecen á páxina un tratamento específico en función deste idioma. Por exemplo, aplican stemming ou maleza lematización a todas as palabras e conseguen que a procura se axuste á lema da palabra, superando o problema dos derivados mencionados.

Con todo, os principais buscadores só o fan coas linguas máis importantes ou con maior presencia na rede, e non é o caso do eúscaro. Nos casos nos que se desexe obter resultados unicamente en eúscaro e mediante lema, pódese utilizar o buscador Elebila (http://www.elebila.eu), un buscador comercializado por Eleka baseado na tecnoloxía do grupo I+D da Fundación Elhuyar.

Multilingüismo

Noutros casos interésanos o contrario, é dicir, obter as páxinas web máis interesantes sobre una determinada cousa, estean en calquera idioma. A liña de investigación que ten por obxecto facilitar isto denomínase procura de información interlingüística. A palabra ou palabras que se queren buscar tradúcense a outros idiomas e realízanse procuras neles, devolvendo a continuación os resultados máis significativos de cada idioma. Paira pechar o círculo, todos os resultados pódense traducir á lingua inicial mediante tradución automática.

Algúns exemplos experimentais poden atoparse en http://terpconnect.umd.edu/~dlrg/clir/systems.html. Nos buscadores comerciais Google é o único que fai algo así a través do servizo Google Translated Search (http://translate.google.com/translate_s). Así, por exemplo, podemos pedir que busquen " bars in Moscow " (" bares en Moscova ") en páxinas en ruso. El traducirá a pregunta ao ruso, buscará e devolverá os resultados ao inglés.

En canto ao eúscaro, o grupo de I+D da Fundación Elhuyar terá que publicar proximamente o buscador de ciencias interlingüísticas Zientzianitz. O que buscamos en eúscaro buscarao nas webs científicas máis significativas en eúscaro, castelán e inglés.

Baseada no significado

Poida que haxa varias palabras que nos indiquen o concepto que buscamos. Pero o buscador só nos devolverá as páxinas que conteñan esa palabra concreta. Paira mellorar os resultados pódese utilizar a técnica denominada difusión da pregunta, que consiste en buscar tamén sinónimos ou variantes da palabra. Google, por exemplo, busca tamén sinónimos colocando o signo ~ antes da palabra. O buscador Elebila en eúscaro non buscará automaticamente, pero poderá seleccionar variantes ou sinónimos da palabra.

Por outra banda, se a palabra que buscamos ten máis dun significado, normalmente só nos interesarán os resultados asociados a un deles. Traducir só eles é de gran axuda, ou polo menos mostrar os resultados agrupados por diferentes significados. O buscador de Bing Reference de Microsoft (http://www.bing.com/reference) --só sobre artigos de Wikipedia, no seu caso- ou o buscador Haki (http://www.hakia.com) tentan facer algo así.

En calquera caso, paira implementar estas opcións é necesario que o buscador adiviñe cal dos significados da palabra interésalle ao usuario. Hai varias formas de facelo. Una delas é preguntar directamente ao usuario cal é o significado que lle interesa ou se a palabra foi traducida correctamente. Outra é tentar adiviñar o significado a través das tecnoloxías lingüísticas utilizando o contexto que proporcionan as outras palabras, pero paira iso a procura debe estar composta por varias palabras. E outra é tentar adiviñar o significado aproveitando o historial de procura do usuario ou a súa localización xeográfica. Isto último é o que fai Google si autorizámolo expresamente.

Respondendo a preguntas

Nalgúns casos dirixímonos a Internet en busca da resposta concreta dunha pregunta. Se facemos una pregunta a un buscador común devolveranos a lista de documentos que conteñen as palabras da pregunta, pero tamén hai sistemas capaces de responder as preguntas. Algúns utilizan textos e técnicas de procura de información e tecnoloxías lingüísticas, como o sistema START do MIT (http://start.csail.mit.edu/) ou o desenvolvemento do Grupo IXA Taldea, Ihardetsi, que responde a preguntas en eúscaro. Outros utilizan o coñecemento estruturado e o razoamento automático, como Wolfram Alpha (http://www.wolframalpha.com) ou TrueKnowledge (http://www.trueknowledge.com). E tamén están a desenvolver os usuarios da web semántica, como a DBPedia (http://dbpedia.org).

Non cabe dúbida de que os buscadores evolucionaron moito desde a súa orixe e seguen mellorando na actualidade. Grazas a eles, e grazas aos novos buscadores que aínda se atopan nunha situación bastante experimental e ofrecen novas capacidades e posibilidades, as procuras que se realizarán na web no futuro seguro que se simplificarán moito.

Leturia Azkarate, Igor
Servizos
264
2010
Servizos
016
Internet; Software
Mundo dixital
Outros
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila