Moteurs de recherche Internet, évolution constante

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Moteurs de recherche Internet, évolution constante
01/05/2010 Leturia Azkarate, Igor Informatique et chercheur
(Photo: © Leo Blanchette/350RF)

Internet est la plus grande banque de connaissances à la portée de l'humanité. Pour trouver les informations que nous voulons, nous avons besoin de chercheurs comme Google, Yahoo ou Bing. Au début, ils ne cherchaient que des mots, mais ils ont de plus en plus de possibilités. Et de nouveaux types de moteurs de recherche commencent à apparaître.

Lorsque le site a été créé, les chercheurs étaient très simples. Ils recherchaient des documents avec des mots ou des mots donnés, puis les ordonnaient selon des critères généraux et des points. Mais ils avaient beaucoup de problèmes: par exemple, souvent les résultats n'étaient pas dans la langue que nous voulions; ou ils ne cherchaient pas les dérivés du mot recherché; pas même les synonymes du candidat; etc. Au fil du temps, les chercheurs ont résolu ces problèmes. Certaines options ont été intégrées directement dans les recherches et d'autres sont proposées dans les options avancées. En outre, des chercheurs spécialisés ont été créés pour résoudre certains de ces problèmes.

Améliorations selon la langue

Une des premières améliorations a été la détection du langage. En utilisant les technologies linguistiques, les chercheurs sont capables de détecter dans quelle langue se trouve un site web, en offrant seulement des pages d'une langue particulière. De plus, lorsque la langue des pages est connue, ils offrent à la page un traitement spécifique en fonction de cette langue. Par exemple, ils appliquent stemming ou de mauvaises herbes lemmatisation à tous les mots et obtenir que la recherche correspond à la devise du mot, dépassant le problème des dérivés mentionnés.

Cependant, les principaux chercheurs ne le font qu'avec les langues les plus importantes ou avec une plus grande présence sur le net, et ce n'est pas le cas de l'euskera. Dans les cas où vous souhaitez obtenir des résultats uniquement en basque et par devise, vous pouvez utiliser le moteur de recherche Elebila (http://www.elebila.eu), un moteur de recherche commercialisé par Eleka basé sur la technologie du groupe R & D de la Fondation Elhuyar.

Multilinguisme

Dans d'autres cas, nous sommes intéressés par le contraire, à savoir obtenir les pages web les plus intéressantes sur une chose donnée, qu'ils soient dans n'importe quelle langue. La ligne de recherche qui vise à faciliter cela est appelée recherche d'informations interlinguistiques. Le mot ou les mots que vous voulez rechercher sont traduits dans d'autres langues et des recherches sont effectuées sur eux, en rendant ensuite les résultats les plus significatifs de chaque langue. Pour fermer le cercle, tous les résultats peuvent être traduits dans la langue initiale par traduction automatique.

Quelques exemples expérimentaux peuvent être trouvés dans http://terpconnect.umd.edu/~dlrg/clir/systems.html. Dans les moteurs de recherche commerciaux Google est le seul qui fait quelque chose comme ça via le service Google Translated Search (http://translate.google.com/translate_s). Ainsi, par exemple, nous pouvons vous demander de rechercher " bars à Moscou " (" bars à Moscou ") dans des pages en russe. Il traduira la question en russe, recherchera et rendra les résultats en anglais.

Quant au basque, le groupe de R & D de la Fondation Elhuyar devra bientôt publier le chercheur en sciences interlinguistiques Zientzianitz. Ce que nous recherchons en basque le recherchera sur les sites scientifiques les plus significatifs en basque, espagnol et anglais.

Basé sur la signification

Il peut y avoir plusieurs mots qui nous indiquent le concept que nous recherchons. Mais le chercheur ne nous rendra que les pages contenant ce mot concret. Pour améliorer les résultats, on peut utiliser la technique appelée diffusion de la question, qui consiste à rechercher aussi des synonymes ou des variantes du mot. Google, par exemple, recherche également synonymes en plaçant le signe ~ avant le mot. Le moteur de recherche Elebila en basque ne recherche pas automatiquement, mais vous pouvez sélectionner des variantes ou des synonymes du mot.

D'autre part, si le mot que nous recherchons a plus d'une signification, les résultats associés à l'un d'eux ne nous intéressent généralement que. Traduire seulement eux est d'une grande aide, ou au moins montrer les résultats groupés par des significations différentes. Le moteur de recherche Microsoft Bing Reference (http://www.bing.com/reference) --uniquement sur les articles de Wikipedia, à votre domicile - ou le moteur de recherche Haki (http://www.hakia.com) essayent de faire quelque chose comme ça.

Dans tous les cas, pour mettre en œuvre ces options, il est nécessaire que le chercheur devine laquelle des significations du mot intéresse l'utilisateur. Il y a plusieurs façons de le faire. L'une d'elles est de demander directement à l'utilisateur quelle est la signification qui l'intéresse ou si le mot a été traduit correctement. Une autre est d'essayer de deviner la signification à travers les technologies linguistiques en utilisant le contexte que fournissent les autres mots, mais pour cela la recherche doit être composée de plusieurs mots. Et une autre est d'essayer de deviner la signification en profitant de l'historique de recherche de l'utilisateur ou de sa situation géographique. C'est ce que fait Google si nous l'autorisons expressément.

Répondre aux questions

Dans certains cas, nous nous dirigeons vers Internet à la recherche de la réponse concrète d'une question. Si nous posons une question à un chercheur commun, nous retournerons la liste des documents contenant les mots de la question, mais il y a aussi des systèmes capables de répondre aux questions. Certains utilisent des textes et des techniques de recherche d'information et de technologies linguistiques, comme le système START du MIT (http://start.csail.mit.edu/) ou le développement du Groupe IXA Taldea, Ihardetsi, qui répond aux questions en basque. D'autres utilisent les connaissances structurées et le raisonnement automatique, comme Wolfram Alpha (http://www.wolframalpha.com) ou TrueKnowledge (http://www.trueknowledge.com). Les utilisateurs du web sémantique, comme la DBPedia (http://dbpedia.org), sont également en train de développer.

Il ne fait aucun doute que les chercheurs ont beaucoup évolué depuis leur origine et continuent d'améliorer aujourd'hui. Grâce à eux, et grâce aux nouveaux chercheurs qui sont encore dans une situation assez expérimentale et offrent de nouvelles capacités et possibilités, les recherches qui seront effectuées sur le web à l'avenir seront certainement beaucoup simplifiées.

Leturie Azkarate, Igor
Services
264 264
2010 2010 2010 2010
Services
016 016
Internet; Logiciel
Monde numérique
Autres
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila