Technologies de la langue et des industries de la langue

Sagarna, Andoni

Ingeniaria

L'informatique est le traitement automatique de l'information. Initialement, il se bornait à effectuer des calculs numériques, mais peu à peu on a essayé un autre type d'information: musique, image, etc. Bientôt, dans les années 1950, il a commencé à traiter les langues humaines dans cette évolution. A 50 ans de ce début, après un chemin escarpé, les applications basées sur le traitement de la langue atteignent la maturité et le marché, et certaines industries qui les travaillent prennent force.
Technologies de la langue et des industries de la langue
01/06/2009 Sagarna Izagirre, Andoni -
(Photo: Bram Janssens/350RF)

Il serait bon qu'un basque qui ne connaît pas le japonais et un japonais qui ne sait pas basque, par exemple, puisse avoir une conversation téléphonique en temps réel, parler dans sa propre langue et écouter ce que l'autre dit dans sa propre langue. Cela, bien sûr, est un rêve aujourd'hui, mais nous pouvons dire que nous faisons de petits pas vers cela.

Il est beaucoup plus facile de traduire des textes écrits d'une langue à l'autre, mais cela n'est pas facile non plus. Sujets spécifiques (manuels d'appareils, prévisions météorologiques, etc.) Les systèmes automatiques qui traitent des couples linguistiques concrets sont ceux qui obtiennent les meilleurs résultats sans grandes corrections humaines.

Cependant, la situation de la traduction automatique a beaucoup changé ces dernières années, entre autres parce qu'il ya beaucoup de traductions qui ont été faites sur support numérique. La traduction automatique était basée sur des règles grammaticales, mais maintenant vous pouvez utiliser des méthodes statistiques basées sur de grandes bases de données. Ces bases contiennent des textes originaux et leurs traductions, formant des corpus parallèles. Le système de traduction connaît les relations entre les textes et est capable de les traduire lorsqu'on lui présente un texte similaire ou égal. Comme il ya de grands corpus parallèles, ce système obtient de bons résultats.

La tendance actuelle est de combiner les méthodes régionales et statistiques.

À un niveau inférieur, les mémoires dites de traduction sont d'une grande aide aujourd'hui. Il s'agit de bases de données contenant les épisodes qui ont été traduits plus tôt. Lorsque le Traducteur Humain travaille et que le système vérifie qu'un paragraphe à traduire ou très similaire est déjà traduit, il présente au Traducteur quelques équivalents à ce paragraphe et celui-ci décide si l'un d'eux est valide ou peut être utilisé avec une modification. Ces systèmes sont très bénéfiques car ils aident à obtenir la rapidité et la cohérence.

Pour aider à l'élaboration de textes monolingues, il existe différents outils : correcteurs orthographiques qui saisissent des erreurs orthographiques, correcteurs grammaticaux qui vérifient que les phrases sont ajustées à la grammaire, chercheurs qui aident à trouver des informations dans les documents, outils qui font un résumé automatique des documents, explications linguistiques à partir de données non linguistiques comme les données météorologiques.

Parmi nous, les logiciels d'interprétation de textes imprimés reçus par scanner (OCR) sont bien connus. Une autre chose est d'interpréter les manuscrits, qui est beaucoup plus méchant.

Quand la langue orale est présente, la compréhension de la langue orale et la création de la langue orale ont une difficulté très différente. Aujourd'hui, les systèmes qui "lisent" à haute voix des textes écrits - par exemple, ceux qui permettent d'entendre ce que disent les textes écrits aux aveugles - sont très fréquents, mais faire le contraire, interpréter automatiquement un système ce qu'un être humain dit oralement, et le convertir en texte écrit, par exemple, est beaucoup plus difficile.

Toutes ces applications vont progressivement des laboratoires au marché. Pas dans toutes les langues, malheureusement. Et c'est qu'il faut faire de grands investissements dans la recherche et les langues qui n'offrent pas de grandes possibilités pour les récupérer reculent. Il ne fait aucun doute que l'anglais reste la langue majoritaire dans ce domaine, car il est celui qui est le plus lié aux intérêts économiques.

Les technologies linguistiques entrent beaucoup dans les services de santé. Dans le domaine sanitaire, à ce jour, les informations cliniques ont été conservées dans de grandes masses de texte non structurées. La technologie linguistique permet aux professionnels de la santé d'économiser beaucoup de temps et d'augmenter la sécurité. Les informations cliniques qui étaient jusqu'ici rédigées en texte libre sont remplacées par une description standardisée des diagnostics, traitements et médicaments par des systèmes spécifiques.

La technologie linguistique est également introduite dans d'autres secteurs tels que l'automobile, l'aviation et les organisations internationales. Dans ces secteurs, à la suite de la mondialisation, ils doivent créer une documentation écrite dans de nombreuses langues et former le personnel multiculturel et multilingue.

Pour cela, la traduction automatique, le logiciel d'extraction et de gestion de terminologie, les correcteurs orthographiques, la gestion de documentation multilingue, etc. sont indispensables, pour gagner du temps et garantir la cohérence des résultats.

Sagarna Izagirre, Andoni
Services
254 254
2009 2009 2009 2009
Sécurité et sécurité
031 031
Technologie
Analyse de l'analyse
Services
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila