OpenTrad, en face de la Tour de Babel

Galarraga Aiestaran, Ana

Elhuyar Zientzia

L'basque, le catalan, l'espagnol et le galicien, quatre langues qui convergent dans un système: Système de traduction automatique OpenTrad. Il permet la traduction automatique de textes et pages web de l'espagnol à l'basque, galicien et catalan, ainsi que la traduction de textes en galicien et catalan en espagnol. En outre, ils ont développé le système en open source. Pour nous comprendre sans obstacles.
OpenTrad, en face de la Tour de Babel
01/04/2006 Galarraga Aiestaran, Ana Elhuyar Zientzia Komunikazioa
(Photo: A. Galarraga)

Le Journal de Catalogne est publié quotidiennement en deux langues: espagnol et catalan. Pour ce faire, ils n'ont pas deux fois plus d'employés ou ne consacrent pas deux fois plus d'heures au travail que d'autres journaux. Son secret est un traducteur de machine. Les journalistes écrivent le journal en espagnol, puis le traducteur automatique le place en catalan. Ils dirigent le texte entre plusieurs correcteurs et sont prêts à sortir dans la rue avec celui de castillan.

Le Journal de Catalogne est un exemple significatif de la mise en valeur des traducteurs automatiques. De plus, le traducteur qui a le journal n'est pas le seul traducteur de l'espagnol au catalan, mais beaucoup d'autres exemples. Par exemple, l'Université d'Alicante a créé interNOSTRUM pour la Caisse d'Épargne de la Méditerranée. La traduction se fait dans deux directions et permet désormais à quiconque de l'utiliser gratuitement sur le web du même nom. Cela admet des textes allant jusqu'à 16.384 caractères.

En outre, dans l'état espagnol il y a un traducteur automatique de galicien en espagnol, mais c'est un produit très fermé et limité. Et en basque, quoi ? Jusqu'ici peu. Le groupe IXA de la Faculté d'Informatique de l'UPV/EHU développait un système automatique de traduction de l'anglais au basque, mais ils n'avançaient pas aussi vite qu'ils le voulaient.

C'était la situation il y a deux ou trois ans. Cependant, le projet de développement de l'OpenTrad a été lancé en 2004. En fait, les chercheurs qui ont développé interNOSTRUM étaient connus par l'IXA, et Eleka Ingénierie linguistique et IXA travaillent ensemble. Ils ont rejoint des travaux similaires en Galice et ont commencé à créer un traducteur automatique open source grâce à la subvention du ministère de l'Industrie, du Tourisme et du Commerce.

Selon Eleka, Iñaki Arantzabal a défini dès le début des objectifs à deux niveaux: "d'une part, nous voulions obtenir un bon traducteur automatique, rapide et open source pour les couples galego-espagnol et catalano-espagnol et, d'autre part, un prototype pour traduire du castillan au basque. Il faut noter que le point de départ de toutes les langues n'était pas le même : le couple castillan catalan était assez avancé et, à l'autre extrémité, pour traduire automatiquement du castillan au basque, presque tout était à faire ».

Proche par surface

En cela, logiquement, la différence entre les langues est très influencée. Il est évident que l'espagnol, le galicien et le catalan sont beaucoup plus proches les uns des autres que de chacun d'eux. Par conséquent, il est beaucoup plus facile d'obtenir un bon système de traduction entre les langues romanes que lorsque le basque est présent.

Comme on le voit dans ces exemples, les traducteurs automatiques servent non seulement à traduire des textes mais aussi à naviguer dans la langue choisie.

C'est pourquoi OpenTrad dispose de deux moteurs de traduction automatique, l'un pour les traductions entre langues romanes, Apertium, et l'autre pour traduire du castillan au basque, Matxin.

Les deux sont basées sur les règles du langage. Il existe plusieurs formes de traduction automatique, mais les principales sont celles qui sont basées sur des collections de textes précédemment traduites, c'est-à-dire corpus, et celles basées sur des règles linguistiques – ordre des mots dans la phrase, déclinaison, verbes...--.

Iñaki Alegria, d'IXA, a expliqué que « les systèmes basés sur des règles linguistiques fonctionnent en trois phases. Ils réalisent d'abord une analyse syntaxique du texte original, puis réalisent un transfert dans l'autre langue et, finalement, créent le texte dans cette seconde langue ».

Pour la traduction en langues romanes, même si le transfert est superficiel, de bons résultats sont obtenus. C'est ce que fait InterNOSTRUM et d'où ils sont partis pour développer le moteur Apertium. Dans un sens, Apertium interNOSTRUM est une version améliorée en open source.

C'est ce que les catalans ont surtout gagné, que le code soit ouvert. En outre, OpenTrad a le code totalement séparé des ressources linguistiques. Grâce à cela, le système offre toutes les facilités pour l'interaction et l'adaptation aux besoins de l'utilisateur. Le système est prêt à assumer tous les changements à effectuer pour enrichir et améliorer.

Apertium effectue non seulement le transfert syntaxique. En outre, il a plusieurs 'filtres' pour affiner la traduction. Par exemple, il est capable de détecter les structures propres d'une langue et de leur donner leur équivalent dans l'autre. Par conséquent, une traduction de meilleure qualité est obtenue. Par exemple, le traducteur du duo espagnol-catalan a une fiabilité de 95%, c'est-à-dire que seulement cinq des cent mots traduits sont erronés.

Lointains en profondeur

Cependant, Apertium ne sert pas à traduire du castillan au basque. Les langues sont si différentes que le transfert syntaxique superficiel ne suffit pas. La structure des phrases change aussi radicalement, il faut donc un moteur d'analyse syntaxique profonde capable de construire un arbre de dépendances, de réaliser un transfert et de produire le texte en basque. Pour cela, ils ont créé Matxin.

L'IXA a reconnu que pour développer Matxin ont dû faire un "dur travail", et le résultat n'est pas aussi bon que ce que Apertium offre dans la traduction entre les langues romanes. Dans tous les cas, ils ont atteint l'objectif initialement marqué, car il s'agissait de créer une infrastructure.

Analyse, transfert et génération.
Groupe IXA
D'autre part, la qualité de la traduction dans le développement du traducteur automatique a été l'une des principales préoccupations, mais il a également pris soin de la vitesse du système. En ce sens, ils ont reconnu leur satisfaction. Cela permet de parcourir les pages web dans la langue traduite. Selon un exemple d'Arantzabal, l'original étant l'espagnol, il y a la possibilité de naviguer en gipuzkoa.net en catalan et galicien à travers OpenTrad.

En regardant en avant

Jusqu'à présent, on a obtenu un bon et rapide système automatique qui traduit dans les deux sens pour les couples galego-espagnol et catalano-espagnol, ainsi qu'un prototype pour traduire du castillan au basque. Selon le responsable d'Eleka, « nous avons atteint l'objectif ».

Mais ils n'ont pas l'intention de rester là. "Nous voulons continuer à améliorer et à compléter. Une façon d'améliorer les résultats est de se concentrer sur des domaines spécifiques. Dans chaque domaine on utilise un langage propre, avec moins de problèmes d'ambiguïté qu'en agissant en général. Par conséquent, la qualité augmente en adaptant le traducteur à un champ, par exemple en incorporant le vocabulaire terminologique correspondant». Avec tout cela, ils espèrent améliorer leur fiabilité.

En outre, ils prétendent ajouter d'autres à la technologie par règle, en particulier, ils veulent utiliser corpus parallèles. Ainsi, si vous voulez traduire une phrase, vous remarquerez d'abord si elle est déjà traduite ou s'il y a quelque chose de semblable. S'il y a quelque chose de plus tôt, il partira de là pour traduire. En revanche, s'il n'y a rien de semblable, il utilisera la technologie de règle».

Les résultats sont meilleurs si le traducteur s'adapte à un domaine. En fait, dans chaque domaine, on utilise un langage propre et ce ne sont pas tant de problèmes d'ambiguïté.
A. Galarraga

En plus d'améliorer et de compléter, ils veulent créer un traducteur automatique pour traduire de l'euskera à l'espagnol. Grâce à cela, les externes auraient la possibilité de connaître ce qui est créé en basque. Un autre objectif à venir est de pouvoir traduire de l'anglais au basque.

Pour donner ces avancées, Arantzazu espère compter sur le soutien du Gouvernement basque. En fait, il y a quelques années, le Gouvernement Basque chargea une entreprise catalane de développer un prototype de traduction automatique. Maintenant, OpenTrad est le système le plus avancé de l'État. C’est pourquoi Arantzazu dit: "Nous voulons convaincre le Gouvernement basque de promouvoir notre système. Nous croyons qu'au moins on ne peut pas rester dehors".

· http://www.opentrad.net

· http://apertium.sourceforge.net

· http://matxin.sourceforge.net

Services
Participants et partage des tâches et responsabilités
Eleka Ingeniaritza Linguistikoa, S.L. : coordinateur et responsable de l'intégration de tous les systèmes.
Groupe Transducens de l'Université d'Alicante: Développement du moteur Apertium.
Groupe IXA de l’UPV: Développement moteur Matxin.
Université Polytechnique de Catalogne: analyse du castillan et ressources linguistiques du catalan.
Université de Vigo : ressources linguistiques du galicien.
Imaxin Software entreprise: vérification de la section galicienne.
Elhuyar Fundazioa: accréditation de la section basque et ressources linguistiques en basque.
Iñaki Alegria, coordinateur du groupe IXA: "Le plus gros problème est l'ambiguïté"
Le groupe IXA de la Faculté d'Informatique de l'UPV/EHU a été chargé de développer le moteur de traduction du castillan au basque. Par conséquent, ils savent parfaitement quelles sont les principales difficultés.
Iñaki, avez-vous touché le travail le plus compliqué ?
La vérité est qu'il n'est pas facile, surtout par rapport à la traduction entre les langues romanes. Les Catalans étaient plus avancés que nous dans ce domaine. Ils avaient une base solide et, en outre, ils ont assez de transfert superficiel parce qu'ils traduisent entre les langues apparentées.
Notre cas est très différent. La vérité est que nous ne sommes pas partis de zéro, depuis des années nous avons fait des recherches et travaillé sur ce sujet et nous avons aussi basé sur FreeLing.
Qu'est-ce que FreeLing?
(Photo: R. Carton)
FreeLing est un analyseur pour l'espagnol créé par l'Université Polytechnique de Catalogne. Cet analyseur effectue tout l'arbre syntaxique, car une analyse superficielle n'est pas suffisante pour traduire le basque. L'ordre des éléments dans la phrase est très différent, donc vous devez faire tout l'arbre pour ensuite effectuer le transfert et construire la phrase correctement en basque.
En plus de la syntaxe ou de la couture, le mal de tête vous donnera également le lexique...
Bien sûr. Les autres langues sont similaires, mais entre le basque et l'espagnol il y a beaucoup plus d'acceptions ambiguës. Un mot en espagnol peut avoir deux ou plusieurs acceptions en basque, et le problème est qu'il faut la sélectionner. Il existe donc une difficulté lexico-sémantique. Et puis il y a la difficulté morphologique, c'est-à-dire des prépositions en espagnol il faut choisir le cas en basque.
Est-il possible de donner un exemple ?
Je vous donne l'exemple de toujours: chaussures en cuir de dame . De qui est la peau ? Pour une machine, le cuir peut être féminin, c'est un problème syntaxique. D'où, où, où, qui, l'apposition ? C'est ambigu au cas de l'euskera. En dehors de cela, la peau peut être cuir ou peau, et si la machine choisit la peau est mal.
Ce sont les principaux problèmes. Parmi les langues apparentées, ces problèmes sont beaucoup plus légers, mais ils nous donnent beaucoup de travail. Nous travaillons toujours à résoudre ces problèmes et d'autres, mais au moins nous avons créé la base et avons l'intention et le désir d'aller de l'avant.
Galarraga d'Aiestaran, Ana
Services
218
2006 2006 2006 2006
Sécurité et sécurité
023 023
Logiciel
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila