Portail de dictionnaires auto-construits

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Dans le département de R & D des Technologies Linguistiques d'Elhuyar, nous avons étudié avec une nouvelle technologie ces dernières années, en utilisant un langage de pont pour créer automatiquement des dictionnaires pour de nouvelles paires de langues. Et pour mettre à la disposition du public les résultats de cette recherche, nous avons mis à la disposition du public le portail de dictionnaires automatiques en ligne avec 5 nouveaux dictionnaires bilingues.
automatikoki-eraikitako-hiztegien-ataria 400

S'il y a une ressource linguistique de base, ce sont des dictionnaires. Et parmi les dictionnaires, les bilingues sont très nécessaires dans de nombreux cas : dans l'apprentissage des langues, dans la traduction... Dans la section Technologies linguistiques d'Elhuyar, nous avons également des dictionnaires bilingues pour les traductions automatiques, recherche multilingue...

Cependant, l'élaboration de dictionnaires est coûteuse. Par conséquent, les dictionnaires bilingues en basque ne sont pas aussi abondants que nous le souhaiterions, et il en va de même pour les autres langues minoritaires. Il existe généralement des dictionnaires pour les langues de contact (autres langues locales ou proches) ou pour les principales langues internationales. Mais ils ne sont pas faits pour d'autres langues minoritaires ou pour les langues majoritaires lointaines, ce qui désavantage les langues minoritaires comme l'euskera. Par exemple, dans les possibilités d'apprentissage de la langue par la population immigrante: il n'est pas facile d'apprendre l'euskera directement à partir de sa propre langue, toujours avec l'espagnol, l'anglais ou le français comme pont, donc avant il faut apprendre l'un d'eux...

Ponts pour créer des dictionnaires

Le langage pont est un inconvénient pour apprendre une langue, mais cette idée peut être utilisée pour créer de nouveaux dictionnaires de manière simple et économique. En fait, presque toutes les langues ont un vocabulaire bilingue avec une langue “grande” (généralement anglais). Et nous pouvons utiliser deux dictionnaires de ce type, en prenant cette langue “grande” comme pont, pour construire un dictionnaire entre deux nouvelles paires de langues. Il s'agit de la technique du pivotage, qui consiste à utiliser le langage comme pivot. En l'expliquant simplement, si vous placez le basque anglais dans un dictionnaire etxe = house et l'anglais-allemand dans un dictionnaire house = haus, nous concluons alors que etxe = haus. Et ainsi nous pouvons construire un dictionnaire euskera-allemand.

Dans le département de R & D des Technologies Linguistiques d'Elhuyar, nous avons étudié avec cette technique ces dernières années dans le but de créer de nouveaux dictionnaires entre le basque et d'autres langues. Vu l'exemple ci-dessus, il semble que la technique est très simple, mais cet exemple est très simple, car en réalité un mot peut avoir plusieurs significations et chacun d'eux peut avoir plusieurs contre-performances. Cela suppose qu'un simple enchaînement des dictionnaires génère beaucoup d'équivalences erronées, comme le montre l'exemple de la figure.

Ed. Elhuyar

La difficulté de cette technique réside donc dans le fait que pour créer un dictionnaire de qualité, il est nécessaire de détecter et d'éliminer automatiquement ces équivoques erronés. Pour cela, deux méthodes sont utilisées. Le premier raconte le nombre de chemins entre deux mots; plus de chemins, plus de chances que l'équivalence soit correcte. Le second mesure la ressemblance des contextes dans lesquels se trouvent les mots dans les corpus des deux langues; plus les contextes ressemblent, plus ils sont équivalents. Et bien sûr, pour mesurer la ressemblance des contextes, il faut un dictionnaire, puisqu'ils se trouvent dans différentes langues, pour lequel on utilise les certitudes obtenues avec la première méthode.

L'application de ces techniques de nettoyage, comme toute méthode automatique dans les technologies linguistiques, n'obtient jamais des résultats parfaits, c'est-à-dire qu'il y aura toujours un taux d'erreur. Ce taux d'erreur obtenu est très variable, car il dépend de plusieurs facteurs (langues, dictionnaires utilisés, corpus utilisés, etc. ), mais certaines mesures indiquent que le pourcentage de résultats corrects peut varier entre 60-80%. Évidemment, ils ne sont pas des dictionnaires parfaits, mais il est préférable de ne rien avoir.

Portail de dictionnaires automatiques

En utilisant les méthodes mentionnées, nous avons créé cinq dictionnaires bilingues en basque, sélectionnés 5 des principales langues des trois continents (Afrique, Asie et Europe): euskera-arabe, euskara-swahilia, euskara-txinera, euskara-hindia et euskara-allemand. Dans chacun d'eux, l'anglais a été utilisé comme langue pont. Nous avons utilisé le dictionnaire euskera-anglais comme dictionnaire d'Elhuyar, et avons pris cinq dictionnaires libres sur le filet pour l'anglais et d'autres langues. Les dictionnaires construits ne sont pas très grands : ils sont des dictionnaires de base entre 8.000 et 21.000 entrées. En fait, ces dictionnaires obtenus sur le réseau étaient similaires. Tous les dictionnaires sont dans les deux sens.

Tous ces dictionnaires ont été mis à la disposition du public sur le portail des dictionnaires automatiques (http://hiztegiautomatikoak.elhuyar.org). Et quand nous disons que nous les avons mis à la disposition du public, nous voulons dire qu'ils ne sont pas seulement pour consultation. D'une part, tous les dictionnaires peuvent être téléchargés intégralement depuis le portail lui-même (puisque les dictionnaires utilisés à l'origine étaient libres, nous aussi libérons ceux qui en découlent). D'autre part, et comme mentionné ci-dessus, les dictionnaires ne sont pas entièrement parfaits et présentent des erreurs, le web permet aux utilisateurs de participer à la correction et l'amélioration de ceux-ci via un système de marquage des corrects et des erreurs.

Sur le web, il ya un champ de recherche de mots dans les dictionnaires. D'autre part, dans le champ des résultats, nous pouvons indiquer si les contre-prestations nous semblent correctes ou incorrectes, car pour chaque résultat, outre le mot, les utilisations réelles des corpus sont affichées, tant pour qu'elles servent d'exemple que pour aider l'utilisateur à décider si le résultat est bon ou mauvais. Il permet également de différencier les paiements sécurisés et douteux. Il existe également une section de téléchargement pour télécharger des dictionnaires complets au format XML. Enfin, le site dispose d'un forum où les utilisateurs pourront discuter de la correction de mots concrets, effectuer des consultations, etc. Le site a une interface en 8 langues et offre un clavier virtuel pour effectuer des recherches en langues qui n'utilisent pas l'alphabet latin.

Nous ne voulons pas quitter le travail accompli. Nous avons l'intention de créer plus de dictionnaires et de les inclure dans le portail. Aussi pour donner la possibilité que la collaboration soit au-delà du vote: par exemple, avec la possibilité d'ajouter ou de modifier des péages et des exemples.

Avec le Portail des Dictionnaires Automatiques, pour la première fois nous avons relié le basque à 5 autres langues. Ils pourraient sembler des langues lointaines, et peut-être cela aurait été avant, mais ils ont de plus en plus de rapport avec la mondialisation et l'internet. Nous croyons qu'ils sont une ressource importante et plus à l'avenir si nous nous aidons à améliorer entre tous.

X. Saralegi, I. Manterola, I. Saint Vincent. 2011. “Analysez les méthodes d’improving Precision of Pivot Based Bilingual Dictionaries”. Conference on Empirical Methods in Natural Language Processing (EMNLP 2011). X. Edimbourg Saralegi, I. Manterola, I. Saint Vincent. 2012. "Building a Basque-Chinese Dictionary by using English as a Pivot". 8th international conference on Language Resources and Evaluation, LREC'12. Istanbul.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila