Technologies linguistiques d'Elhuyar : Recherche multilingue

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

L'un des domaines que nous travaillons dans le département R & D des technologies linguistiques de la Fondation Elhuyar est IR (Information Retrieval ou Recherche d'Information), un domaine informatique qui facilite la gestion et la recherche de contenus numériques. Ces dernières années, nous avons développé deux technologies à cet égard très utiles à notre avis: Chercheur multilingue et Dousare rapporteur de documents multilingue. Nous avons récemment mis en œuvre les deux sur le portail Zientzia.net et les avons présentées publiquement en juillet.
elhuyarren-hizkuntza-teknologiak-bilaketa-eleanizt
Grâce à la technologie dokusare, d'autres contenus liés à l'article que l'utilisateur lit sont recommandés dans la colonne de droite.

Il y a deux ans, dans ce même paragraphe de ce magazine, nous vous présentons l'évolution des chercheurs d'Internet et leurs nouvelles capacités futures. Nous avons alors mentionné que le département R & D des technologies linguistiques d'Elhuyar étudiait les techniques de navigation et de recherche de contenus multilingues. Ces technologies sont déjà réalité et nous expliquerons ici plus en détail ce qu'elles sont et pourquoi elles sont utiles.

Elezkari, chercheur multilingue

Les gens qui ont l'habitude de parler en basque sur le net ont deux problèmes majeurs quand on veut chercher du contenu. Un, quand nous voulons chercher le contenu en basque: si ce que nous cherchons est un nom spécial, technique, ou court, il y a beaucoup d'options pour dire la même chose dans d'autres langues, et des résultats nous apparaîtront dans d'autres langues plutôt qu'en basque. L'autre, lorsque nous cherchons du contenu sur quelque chose, si possible en basque mais pas possible dans un autre: la première recherche se fera en basque; si nous ne trouvons pas de résultats adéquats (malheureusement ce qui peut arriver souvent, parce que le contenu en basque n'est pas aussi abondant que nous le souhaiterions), nous chercherons dans une autre langue qui s'adapte bien, comme le castillan ou le français, en traduisant les termes de recherche (chose que souvent n'est pas facile).

Pour éviter cela, nous avons développé la technologie appelée Elezkari. Dans celle-ci, nous réaliserons une seule recherche en basque, qui se chargera de traduire les mots en d'autres langues et de chercher dans les lieux où l'on va chercher, pour ensuite traduire les résultats les plus significatifs dans la langue dans laquelle ils se trouvent.

Le point fort de l'outil est la traduction des termes de recherche. Il combine des dictionnaires et des technologies linguistiques pour donner une traduction adéquate, et ce n'est pas un sujet baladais: on résout les ambiguïtés pour trouver une rémunération adéquate, on fait appel aux synonymes pour obtenir plus de résultats mais en refusant les résultats indésirables... L'outil est très utile dans de nombreux cas: pages web avec contenu en plusieurs langues, portails spécialisés qui veulent permettre la recherche sur plusieurs sites web, intranets d'entreprises, etc. Et bien que dans l'exemple d'utilisation mentionné ci-dessus la langue initiale était le basque, il peut être tout autre. En outre, une diffusion possible de l'outil peut être la traduction dans la langue de départ des résultats dans d'autres langues grâce à la traduction automatique, technologie que nous travaillons également. Elezkari est à la hauteur des outils similaires existants, mais c'est la seule qui tient compte de l'euskera.

Dokusare, rapporteur documentaire multilingue

Dans les versions en ligne des médias, blogs et sites avec un grand contenu, il est très fréquent que, étant dans une certaine nouvelle ou article, des liens vers des contenus similaires sont présentés à la fin permettant d'approfondir le sujet. Ces liens sont placés par des méthodes automatiques, mais ils sont généralement de leur propre contenu et sont dans la même langue, donc ils sont très simples, basés sur la simple coïncidence de mots.

La technologie dokusare fait de même, mais il est capable de relier le contenu en plusieurs langues et de rechercher le plus proche. Vous pouvez le faire par les médias et les pages Web qui ont du contenu dans plus d'une langue, ou ceux qui veulent afficher du contenu lié sur des pages externes.

Les deux dans Zientzia.net

Dokusare et Elezkari sont nés comme des projets de recherche et depuis des années, nous avons fait des recherches sur eux et des avancées dans les congrès internationaux, mais ce sont des technologies qui fonctionnent actuellement. Ils ont été lancés pour la première fois sur le site Zientzia.net de la Fondation Elhuyar. Zientzia.net a vocation à être le portail de la science en basque, de sorte qu'il ne limite pas le contenu interne des liens vers des contenus comme son chercheur. Il envisage également le contenu de plusieurs sites internationaux de référence sur la science dans les deux cas: Nature, Science , Physics World, Futurity... Ainsi, en plus des contenus propres de Zientzia.net, nous pouvons accéder et rechercher le contenu de ces sites, toujours en partant du basque.

Dokusare et Elezkari sont d'excellents exemples de ce que les technologies linguistiques peuvent apporter. Ces technologies représentent une avancée majeure pour les utilisateurs et le basque. Nous espérons donc qu'à l'avenir ces technologies se verront sur plus de sites et que ces technologies deviendront quotidiennes.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila