Un regard sur l'évolution des systèmes de traduction automatique

Cortés Etxabe, Itziar

Elhuyarreko itzulpengintza-teknologien arduraduna

begirada-bat-itzulpen-automatikoko-sistemen-bilaka 400

La traduction automatique est une technologie connue. Lorsque nous naviguons sur Internet, nous l'utilisons souvent pour comprendre des textes écrits en langues étrangères, ou pourquoi pas, ou comme aide à traduire.

Les services que nous trouvons sur Internet sont très variés, la plupart gratuits, et bien qu'ils semblent apparemment égaux, ils peuvent être des outils basés sur différentes technologies ou ont été adaptés au fil du temps, et ce changement a été transparent pour les utilisateurs. Pour mettre en place un système de traduction automatique, il existe donc plusieurs options: les systèmes basés sur des règles (RBMT) nécessitent des ressources ou des connaissances linguistiques; ceux basés sur des statistiques (SMT) nécessitent des collections de textes déjà traduits, et avec une certaine capacité d'apprendre à traduire par des techniques statistiques; et enfin, les systèmes NMT ou basés sur des réseaux neuronaux, qui ont été très connus ces derniers temps.

Les systèmes basés sur les réseaux neuronaux imitent le fonctionnement du cerveau humain et proviennent de grandes collections d'information, mais ils sont plus complexes que les systèmes basés sur la statistique. Cette technologie est basée sur un modèle mathématique (au sein de la deep learning) qui cherche à imiter le fonctionnement des neurones du cerveau et qui, bien qu'ayant passé plusieurs années de sa connaissance, prend de la force. En fait, la mise en service de ce type de système nécessite, en plus de grandes compilations de données, des dispositifs de haute capacité de calcul, et avec les ordinateurs et les cartes graphiques que nous avons aujourd'hui a réussi à créer ce type de systèmes efficacement.

Les systèmes de traduction automatique ont évolué au fil du temps et Google en est un exemple: sans que les utilisateurs se rendent compte, ils se sont adaptés à de nouveaux modèles et certains des traducteurs que nous utilisons sont déjà basés sur des réseaux neuronaux. Mais ne pensons pas que cette technologie est seulement entre les mains des géants d'Internet, nous cherchons dans ce domaine et travaillons avec le basque. Nous réalisons actuellement des expériences de recherche, mais les premiers résultats obtenus sont encourageants. L'objectif est de mettre en place prochainement un système basé sur des réseaux neuronaux qui traduisent l'euskera.

Site consumer.eus, bilingue e

Matxin (http://matxin.elhuyar.eus) est un pionnier dans la traduction de l'espagnol en basque. Il s'agit d'un système de traduction automatique issu d'une thèse de doctorat en 2007 (Aingeru Mayor Martínez, UPV/EHU), le premier traducteur automatique en basque, et depuis lors il s'adapte progressivement aux nouveaux temps dans une ère numérique aussi importante que les technologies linguistiques. Il est basé sur les règles, donc vous avez une connaissance des ressources linguistiques qui vous permet de traduire. En particulier, il a la connaissance nécessaire pour comprendre des textes en espagnol et, en quelque sorte, les traduire en basque. Pour cela, il utilise des dictionnaires et des règles syntaxiques, entre autres.

Au cours des trois dernières années, nous travaillons sur le projet Consumer.eus Eroski Foundation, l'équipe de recherche de l'UPV Ixa et Elhuyar. Les contenus qui jusqu'ici ne pouvaient être lus qu'en espagnol sont automatiquement traduits en basque et Matxin est utilisé pour réaliser ce travail ; c'est un traducteur solide, basé sur un logiciel libre, qui permet d'adapter facilement les ressources linguistiques et, après son application, on perçoit au même moment l'amélioration des résultats. Pour traduire le contenu du web consumer.eus nous nous sommes concentrés sur le domaine de l'alimentation, en adaptant les ressources linguistiques que le traducteur automatique utilise. L'effet des adaptations réalisées a été immédiatement constaté: l'adéquation des ressources a été accompagnée d'une amélioration de la qualité du système dans les textes sur l'alimentation.

Cependant, il est évident que la qualité des traductions générées automatiquement n'est pas toujours attendue, ou du moins n'est pas directement modifiable. C'est pourquoi, dans ce même projet on offre au lecteur la possibilité d'adapter les traductions, en pouvant participer n'importe qui. Consumer.eus permet de corriger des articles et des recettes en basque et le travail effectué est conservé. Pourquoi ? Améliorer le traducteur avec les données recueillies. Avec les informations reçues et l'apprentissage automatique, un nouveau système de traduction automatique spécialisé dans la traduction de textes alimentaires sera lancé.

Défis de la traduction automatique

Avancer dans les systèmes de traduction automatique est un défi énorme et la voie pour améliorer la qualité des résultats est pleine d'expériences : quand nous avons commencé à travailler avec des systèmes basés sur des règles, le travail manuel des linguistes était indispensable. Le linguiste devait connaître les langues d'origine et de destination du traducteur et créer des règles pour faire un pont interlinguistique (au niveau morphologique et syntaxique, par exemple). Commencer à zéro un système de ces caractéristiques est donc une tâche immense. Cependant, la création de systèmes basés sur les statistiques ou l'apprentissage automatique ne nécessite pas nécessairement de connaissances linguistiques (au moins pour créer un modèle simple).

Ces dernières années, nous avons souvent entendu le concept du Big Data, utilisé pour faire référence aux immenses ensembles de données disponibles. L'information est extraite et, le cas échéant, l'étude correspondante est réalisée. Les techniques d'étude mentionnées dans cet article ne s'appliquent pas uniquement à la traduction automatique, mais le concept de Big Data est également utilisé pour d'autres processus d'apprentissage ou d'étude. Il semble donc facile de créer des systèmes de traduction lorsque nous avons des données disponibles, mais dans ce cas, nous trouvons également des limitations.

La préparation d'ensembles de données pour l'apprentissage automatique ou profond (machine learning, deep learning) n'est généralement pas facile. Nous devons garder à l'esprit que la création de modèles mathématiques nécessite un ensemble de phrases déjà traduites: les traductions doivent être de qualité et l'ensemble de données doit être grande. En théorie, plus le nombre de données utilisées pour créer le système est élevé, plus le résultat du traducteur est élevé.

Cependant, il semble que les systèmes basés sur la statistique ont atteint le sommet : même si l'ensemble des données utilisées pour l'apprentissage est étendu, le résultat du traducteur n'améliore pas la même proportion. C'est pourquoi nous recherchons des systèmes basés sur des réseaux neuronaux pour surmonter cette barrière et avancer dans le domaine de la traduction automatique.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila