Modernisation technologique du vocabulaire

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Dans l'élaboration de dictionnaires, comme dans presque toutes les autres activités, de profonds changements ont eu lieu au cours des dernières années de la main de la technologie. Nous sommes passés d'avoir comme base et comme objectif le papier et d'exiger un grand travail manuel à utiliser des textes et corpus électroniques, automatiser une bonne partie du processus et utiliser des supports numériques pour publication. Dans l'élaboration de dictionnaires d'Elhuyar, nous avons également fait ce pas de modernisation accompagné des technologies linguistiques.
hiztegigintza-teknologiaz-modernizatzen
Nouveau site du dictionnaire Elhuyar. - Ed.

L'un des quatre départements principaux d'Elhuyar est celui de la langue et de la technologie. Elle est divisée en services de traduction, lexicographie et technologies linguistiques. Les technologies linguistiques sont nombreuses et utiles dans de nombreux domaines. Et nous cherchons également, développons et commercialisons ceux qui sont utiles pour de nombreux domaines, mais, comme c'est normal, nous travaillons particulièrement ceux qui sont utiles pour d'autres domaines d'Elhuyar. Par exemple, dans les services de traduction nous travaillons la traduction automatique et les technologies des mémoires de traduction qui peuvent apporter un avantage concurrentiel, ainsi que beaucoup de technologies d'intérêt pour le vocabulaire.

Faciliter le processus de travail

Un des travaux à effectuer dans l'élaboration de dictionnaires est la sélection des mots. Nous avons développé des outils de soutien à cela, par l'application de corpus textuels, en combinant des techniques linguistiques et des statistiques qui extraient les mots, termes ou localisations les plus significatifs de ceux-ci.

L'un d'eux est Erauzterm. Après avoir offert un corpus spécialisé dans une certaine zone de l'euskera, Erauzterm détecte les termes qui y apparaissent. Il n'est pas parfait dans la mesure des outils automatiques, mais il a une interface pour effectuer un examen manuel.

ElexBI fait quelque chose de similaire mais en bilingue. A partir d'un corpus parallèle (recueil de textes qui sont des traductions entre eux, alignés au niveau de phrase), il tire ses équivalences de termes, c'est-à-dire les paires de termes des deux langues. Cet outil a été activé comme service Web sous le nom d'Itzulterm. Et avec cet outil, le dictionnaire de formation professionnelle a été élaboré.

AzerHitz fait la même chose qu'Elexbi, mais au lieu de prendre comme matière première corpus parallèles (puisque les corpus parallèles ne sont pas autant que l'on veut ou ne sont pas aussi grands que l'on veut, surtout dans les zones spécialisées ou dans certaines paires de langues) il utilise corpus comparables. Ce sont des collections de textes multilingues qui traitent un même sujet sans avoir à les traduire. AzerHitz est capable d'extraire une terminologie bilingue de ce type de corpus.

Un autre instrument pour extraire l'information lexicographique des textes est le Konemat. Il extrait des textes en basque les combinaisons, les collations, la phraséologie, etc. Pour l'instant, il tire les combinaisons les plus courantes de noms, adjectifs et noms.

Nous avons aussi l'outil PopLex, qui crée de nouveaux dictionnaires en utilisant deux dictionnaires et un langage pont. Cinq dictionnaires en basque en ligne ont été publiés sur le portail de dictionnaires construits automatiquement, comme nous vous l'avons dit en juillet.

Matière première de travail, corpus

Comme vous l'avez vu, beaucoup de ces technologies ont besoin de corpus, et c'est pourquoi c'est l'un des domaines dans lesquels nous travaillons beaucoup le corpus numérique. Avec le Groupe IXA de l'UPV/EHU nous créons le Corpus de Science et Technologie; pour la Fondation Eroski nous formons le corpus multilingue de la revue Consumer; et pour Euskaltzaindia, nous formons le Corpus de l'Observatoire du Lexique avec le Groupe IXA et UZEI.

Cependant, étant donné que l'élaboration du corpus est coûteuse, ces dernières années nous créons des outils pour pouvoir utiliser le web pour former du corpus. Pour pouvoir consulter Internet comme corpus, il y a quelques années nous avons lancé le service CorpEus en ligne. Et depuis le web, nous avons aussi des outils pour créer automatiquement de grands corpus généraux, corpus spécialisés, corpus parallèles et corpus comparables. A travers un grand corpus général en euskera construit automatiquement à partir du web, un grand corpus parallèle euskera-castellano et les combinaisons extraites du grand corpus général à travers l'outil mentionné ci-dessus, nous avons été mis à la consultation sur le portail de corpus Web, comme nous vous avons parlé en février.

Nouveau site web d'Elhuyar Hiztegiak

En plus de faciliter le processus d'élaboration de dictionnaires et de fournir des corpus électroniques pour les matières premières, la technologie en général et les technologies linguistiques en particulier peuvent améliorer considérablement l'expérience des utilisateurs du dictionnaire. Depuis quelques années, ils ont commencé à placer les dictionnaires sur le web, dans la plupart des cas, ils ont offert l'option des boîtes de recherche pour pouvoir effectuer des recherches rapides au lieu d'aller chercher dans une liste ordonnée alphabétiquement (bien qu'il y ait déjà celles qui se limitent simplement à mettre en ligne les PDF des dictionnaires). Mais les résultats proposés après la recherche sont similaires à ceux offerts par les dictionnaires papier. Sur le nouveau site web d'Elhuyar Hiztegiak (http://hiztegiak.elhuyar.org/), qui dispose de dictionnaires euskera-castillan, euskara-français et euskara-anglais, nous avons voulu aller plus loin et offrir des options plus avancées.

Par exemple, vous pouvez entendre comment prononcer un mot recherché à travers deux options: Grâce aux audios enregistrés par les utilisateurs sur le web Forvo, ou par la technologie TTS (text-to-speech ou synthèse vocale), c'est-à-dire par la voix synthétique créée par l'ordinateur. Le système TTS que nous utilisons est celui développé par le Groupe Consultab de l'UPV et que nous commercialisons.

De plus, lorsque nous voulons chercher un mot, en tapant le mot, il nous montre la liste des mots qui ont ce début, évitant ainsi d'avoir à tout écrire et réduisant les chances d'écrire à tort.

D'autre part, en ce qui concerne les exemples de mots, en plus des habitués introduits par les auteurs dans le dictionnaire, ce nouveau site permet de visualiser les exemples qui se trouvent dans le corpus parallèle euskera-castellano extrait du site mentionné ci-dessus. Ces exemples ne sont pas seulement de la langue cible, mais de paires de phrases qui sont des traductions entre eux.

En plus de la recherche habituelle des entrées de la langue d'origine, il est possible de les rechercher dans les entrées de la langue cible. Et on veut offrir la possibilité de chercher dans de futurs exemples.

Des options sont également proposées pour personnaliser le dictionnaire, comme enregistrer les dernières recherches effectuées, enregistrer certaines recherches dans une liste de favoris personnels, etc.

Même si pour le moment nous avons publié ces nouveautés, à l'avenir il est prévu d'introduire plus de choses progressivement. Par exemple, la possibilité d'aller directement à la recherche de combinaisons ci-dessus, montrer également les résultats d'autres dictionnaires et corpus, proposer un mot correct lorsqu'il a été mal écrit, montrer les déclinaisons ou inflexions du mot recherché…

Et plus tard !

En outre, dans les années à venir, nous voulons encore plus technologique notre section de vocabulaire. Nous continuons à travailler sur la construction de corpus pour améliorer et créer de nouveaux outils de construction automatique de corpus, avec lesquels se forment toujours plus de corpus, plus grands et de nouvelles paires de langues. Notre intention est que ces nouveaux corpus soient également placés en ligne sur le Portail de Corpus Web.

Mais la principale nouveauté viendra du domaine de l'automatisation du vocabulaire. La plupart de ces technologies que nous avons travaillé jusqu'à présent extrait des corpus mots et termes pour le dictionnaire et ses contre-performances, mais aussi un dictionnaire a besoin de définitions, de sens et d'exemples. Eh bien, nous avons également commencé à travailler sur la façon de les obtenir automatiquement, c'est-à-dire sur l'extraction automatique de définitions, acceptions et exemples appropriés de textes et/ou de sites web.

En suivant l'exploitation des technologies linguistiques que nous avions déjà et en développant celles que nous venons de mettre en place, nous voulons que le dictionnaire d'Elhuyar soit pointeur pour que dans un monde toujours plus globalisé l'euskera puisse rester en contact avec d'autres langues.
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila