La qualité du travail du traducteur humain sera certainement meilleure et plus riche, mais aujourd'hui, il est possible de créer des documents dans un domaine particulier et technique comme la météorologie, en utilisant des techniques automatiques. Dans
cet article, nous présentons le système interactif Multimeteo qui utilise la création textuelle multilingue dans le domaine de la météorologie, ainsi que l'adaptation que nous avons réalisée à la création en basque. Le système développé offre des prévisions météorologiques quotidiennes à l'adresse suivante : http://www.ingurumena.net/udala //www.inm.es/wwi/Multimeteo/Multimeteo.html
Bien que la création automatique de texte n'est pas utilisée, il faut mentionner ici un système qui traduit automatiquement les prévisions météorologiques. Le système METEO créé par le groupe TAUM de Montréal a été le système de traduction le plus réussi de tous les temps. Il était difficile de trouver des traducteurs pour des traductions ennuyeuses qui ressemblaient quotidiennement, et le service météorologique officiel du Canada a commencé à rechercher des voies automatiques. Le système METEO obtenu traduit des bulletins météorologiques de l'anglais au français depuis 1977, et 80% de sa traduction est totalement directe. Cependant, le succès de la météorologie n'a pas été étendu, car bien que le système ait été adapté à d'autres questions, aucun résultat de qualité égale n'a été obtenu. Il semble que le domaine des prévisions météorologiques a une adaptation particulière à ce type de processus automatiques.
L'environnement de travail Forecast Generator (FoG) a également été lancé au Canada en 1993. Dans ce système, le météorologue utilise un éditeur graphique pour adapter la carte montrant les données météorologiques, puis le système génère automatiquement la prédiction météorologique en anglais et en français pour la région.
En 1995, le Service météorologique français (Meteo France) a lancé le projet MultiMeteo pour la publication des prévisions météorologiques en plusieurs langues. Pour cela, il a contacté l'Institut national de météorologie (INM) d'Espagne, le Royal Meteological Institute (RMI) de Belgique, le Zentralanstallt für Meteologie und Geodynamik d'Autriche (ZAMG) et deux entreprises spécialisées dans la création linguistique: Lexiquest, basée à Paris, et CL Services linguistiques de Madrid. Le service de météorologie allemand (DWD) a également été initialement rejoint, mais a ensuite été abandonné.
Ces associations ont présenté le projet « Multilingual Production of Weather Forecasts » et ont obtenu un financement communautaire. Le système a été développé en quatre langues: français, anglais, espagnol et allemand. Les résultats de l'évaluation réalisée en février 1999 ont été très positifs.
En 2000, INM et Lexiquest ont conclu un accord pour étendre le système en quatre langues : le néerlandais, le catalan, le galicien et l'euskera. Le Groupe Ixa et le Centre de terminologie UZEI de la Faculté d'Informatique de San Sebastián nous ont chargés de la diffusion en basque, et en ce moment nous sommes sur le point de terminer la phase de développement du projet.
Deux sources sont utilisées pour la collecte des données météorologiques : la collecte superficielle des données et la collecte spatiale. Les données superficielles sont prises dans les observatoires météorologiques, où sont mesurées et collectées à tout moment les variables physiques qui décrivent l'état de l'atmosphère. Les autres données obtenues de l'espace sont les satellites météorologiques, les satellites géostationnaires METEOSAT et les satellites polaires de la série TIROS-NOAA, qui ne sont pas destinés à envoyer des informations.
Toutes les données numériques obtenues sont traitées par des modèles mathématiques complexes. Les processus automatiques simulent l'évolution des variables physiques dans les prochains jours, générant des matrices de données pour des prévisions météorologiques. Le météorologue a alors la possibilité de retoucher ces matrices de données, c'est-à-dire de compléter et arrondir la prévision avec son expérience. En conclusion, comme indiqué dans le tableau 1, les tableaux présentent des données de température (Te), direction du vent (DD) et force (FF), nuages, pluie, etc. pour différentes heures (périodes de 3 heures dans le cas du système INM). Pour chaque point de la carte, vous obtenez une matrice de ce type.
Avec ces données, les météorologues créent les prévisions météorologiques manuellement. Ce travail est très long et coûteux, surtout quand d'une seule prédiction il faut faire plusieurs versions en différentes langues ou styles (prédictions générales, de plages, de mer, de montagne, par communauté, par province...).
Voici l'intérêt de MultiMeteo. Il ne s'agit pas de remplacer l'œuvre des météorologues, mais de contribuer de manière interactive à leurs tâches, afin que les prédictions puissent être diffusées dans différentes langues et styles. En outre, il permet d'effectuer des prédictions pour différents endroits de la carte.
Cette technique, en premier lieu, par la création automatique, génère un brouillon à partir de données d'entrée peut-être incomplètes. Bien qu'il ait la capacité de créer du texte en plusieurs langues, le météorologue, pour agir comme correcteur, est offert uniquement dans sa langue maternelle. Si le météorologue souhaite effectuer une correction dans un fragment de texte, il doit cliquer sur la partie à modifier. Ensuite, le menu “pop-up” vous proposera un certain nombre d'options et de modificateurs alternatifs, en choisissant l'un d'eux pour effectuer la correction confortablement. Compte tenu des modifications apportées, le système générera des textes prédictifs dans toutes les langues.
Les avantages de cette technique sont la rapidité (pour produire chaque texte dans chaque langue il faut environ 2 secondes; un traducteur humain a besoin d'environ 10 minutes); la viabilité de la création, même si quelques données n'ont pas encore été recueillies, la haute qualité des textes créés (parfois avec des touches humaines); la facilité d'entretien et d'adaptation; et enfin, l'acceptation de la part des utilisateurs humains (les météorologues ne leur enlèverront pas le poste de travail étranger, mais de langues étrangères).
MultiMeteo réalise la création de deux formes:
Météo *IS *CO. *MO *FD.
Heure Locale: *FP.
Valeur de l'annonce: *TT.
où:
Le moteur de génération utilisé par le système a été développé en 1994 en français pour la génération automatique de cartes commerciales. En 1995, il s'est étendu à l'anglais en s'intégrant dans un prototype de traduction de manuels techniques. La même année, elle a également intégré le projet « Multilingual Production of Weather Forecasts » pour intégrer de nouveaux langages et fonctionnalités dans la création de bulletins météorologiques (création interactive et gestion des connaissances stylistiques).
L'architecture du système peut être vu dans la figure 2. La première phase consiste à obtenir et reformater une base de données météorologique permettant l'utilisation de modules de génération. La tâche du module de création est ensuite divisée en deux parties : planifier et exécuter.
La planification utilise des bases de connaissances de concepts et de styles (UE) et est divisée en deux phases:
L'événement est un objet conceptuel associé à la situation météorologique ou l'évolution de la situation. Les phénomènes sont de deux types: atomiques et moléculaires.
L'événement atomique représente un paramètre météorologique sans évolution, avec une seule valeur associée (attribut Value). Par exemple, l'événement atomique représentant le ciel couvert est:
Event_CloudCovering4: Event{} Value=Class CloudCovering_code4 est un ensemble de concepts simples: Overcast, NoSun et VeryCloudy-Overcast. Chacun de ces concepts est associé à un terme dans chaque langue.
L'événement moléculaire indique plus d'un paramètre. Par exemple, quand on parle de vent, on peut avoir la force, la direction et les données d'évolution. Ils peuvent prendre plusieurs valeurs (Value0, Value1, etc.) attributs), ainsi qu'un opérateur (attribut Operator) qui spécifie la façon de collecter ces valeurs. Par exemple, l'événement moléculaire pour décrire le ciel sans nuages à être couvert est:
GrowingCloudier_Min0: Event_mol{ Value0=Cet événement moléculaire se manifeste par deux épisodes atomiques et un opérateur. Il sert à situer les événements time - representation dans le temps (présent, passé ou futur) et indique la période (jour, matin, soir, nuit...).
Un concept est choisi à la sortie du module de planification pour chaque événement atomique et pour chaque classe d'attribut Operator des événements moléculaires. En outre, d'autres attributs peuvent être ajoutés (automatiquement ou en interaction avec le météorologue) : indice de probabilité, phase, période...
Le module pour matérialiser linguistiquement les concepts obtenus dans chaque langue est basé sur la Théorie du Sens - Texte (Mel’cuk 1988, Polguère 1988). Dans cette phase on utilise une base de connaissance linguistique qui est divisée en cinq étapes: prédénotation, sémantique, syntaxe profonde, syntaxe superficielle et morphologie.
Le travail informatique pour la diffusion du système MultiMeteo en basque a été développé par le groupe IXA et le travail terminologique a été réalisé par UZEI. Les adaptations au galicien et catalan ont été faites à partir de la version castillane, et ont dû travailler sur tout le lexique, car il n'y avait pas de grands changements dans la syntaxe et la morphologie. Pour l'euskara, même si nous sommes partis de l'espagnol (et parfois du français), la plupart des structures des phrases ont été modifiées et nous avons dû travailler spécialement avec des marques de déclin morphologique.
Nous commençons notre travail en trois phases:
L'adaptation a été réalisée en trois sous-phases: nous avons d'abord abordé les événements atomiques (par exemple le «ciel couvert»), puis les événements moléculaires qui étaient faciles (par exemple le «vent, faible, du nord»), et enfin les événements moléculaires qui présentaient des difficultés particulières (par exemple, le ciel, initialement couvert, avec de la pluie, par la suite très couvert temporairement).
Dans chacune des phases d'adaptation, une analyse linguistique préalable, une analyse et une conception de l'information à inclure dans la base de connaissances, une introduction et une preuve de l'information d'un exemple représentatif pour chaque événement et, enfin, une introduction et une preuve de toutes les possibilités pour chaque type d'événement.
Les principales caractéristiques de cette adaptation sont:
Si par la suite le système devait être étendu avec d'autres styles, plus de cas de déclin devraient être utilisés, il faudrait donc introduire ces cas dans le dictionnaire. Voyons, par exemple, l'introduction du vocabulaire du mot pluie:
BA_Euri1 :Dans le tableau 3 on peut observer comment se sont matérialisés plusieurs concepts atomiques en basque (on inclut la réalisation en espagnol et français de référence).
Le tableau 4 montre l'exécution de plusieurs concepts moléculaires. Les variables indiquent, quand elles sont indiquées, les valeurs de cet événement : Variables N état des nuages (oscarbia, sous nuage, couvert...); Variables DD direction du vent (nord, sud-ouest, etc.) ); Les variables FF sont la force du vent (modérée, forte,...); Variables TS précipitations (pluie, sirimiri...), Période PER (matins...)...
Le projet est actuellement dans les dernières phases de développement. La prochaine étape est un test massif pour analyser les erreurs possibles dans le système. Ensuite, effectuer les changements nécessaires et l'évaluation finale. Cependant, l'adaptation effectuée est déjà intégrée dans le système de l'INM et chaque jour les prévisions météorologiques des communautés de l'État espagnol sont offertes sur le web http://www.inm.es/wwi/ MultiMeteo/Multimeteo.html.
Outre l'écriture télégraphique de l'objectif général, la réalisation de prédictions à but spécial (pour les plages, les montagnards, les skieurs...) et l'élaboration d'écritures plus riches (par exemple, l'introduction de verbes à phrases complètes) seraient des étapes réalisables à moyen terme. Ce type de versions complètes ont été faites en français et sont actuellement utilisés. Pour l'instant il suffirait d'analyser l'utilité du système développé pour l'euskera, et si la nécessité était détectée par la suite, alors il faudrait aborder l'organisation des améliorations mentionnées.