Ingénierie linguistique Hizking21 XXI. à la porte du siècle

Saiz Elizondo, Rafa

Itsas Enara Ornitologia Elkartearen lehendakaria

Au-delà du processus de texte, l'ingénierie linguistique aborde ce que les ordinateurs peuvent faire dans le domaine linguistique. L'objectif général est que le moyen de communication avec les machines soit de plus en plus naturel, entre autres, parce que l'utilisateur parlera ou écrira comme d'habitude et les machines comprendront et, si tel est le programme, obéiront. Au lieu de lire des messages déjà enregistrés, les machines créeront des messages communicatifs, écrits et verbaux. Pour cela, il faut un long chemin et un grand travail de base. Détails du projet Corpus
(Photo: G. Andonegi).

Le projet qui a commencé sous le nom de Hizking21 vise à: Pour l'année 2005 disposer des outils infolinguistiques actuellement disponibles pour l'anglais en basque. Beaucoup d'entre elles seront créées spécifiquement pour l'euskera, d'autres auront été adaptées à d'autres langues. La morphologie et la syntaxe particulière de l'euskera feront que l'on rencontre des problèmes qui n'ont pas été traités auparavant et que la technologie qui se développe pour les surmonter puisse faire d'Euskal Herria une référence mondiale dans ce domaine.

Ce qu'il y a aujourd'hui

Actuellement, la référence aux technologies informatiques linguistiques en basque est indispensable pour les groupes IXA et Aholkularitza de l'Université du Pays Basque. Ils ont développé divers outils informatiques pour le traitement de la langue: correcteur orthographique, létharisateur, désodorisant, etc. qui seront dans une large mesure le point de départ du projet. Cependant, pour que ces travaux nécessitent des références, des lexicons, et pour les compléter et les mettre à jour, les corpus sont devenus un outil indispensable, un référentiel de textes classés, étiquetés et ordonnés reflet du langage réel.

Plus le traitement du langage naturel est développé, plus il sera facile d'utiliser les outils informatiques de travail. (Photo: G. Andonegi).

Les travaux réalisés par Elhuyar au fil des ans dans l'élaboration de dictionnaires linguistiques, ainsi que dans les dictionnaires techniques, serviront à compléter et alimenter ces lexiques. Le matériel élaboré et compilé dans le domaine de la science et de la technique sera également précieux dans la création de corpus très spéciaux.

Son activité principale est l'analyse et le traitement de la voix. Il dispose d'outils pour passer d'un fichier de format vocal à texte écrit et vice versa. Pour cela, il est également indispensable d’avoir des références: enseigner à la machine comment connaître ce qu’elle ‘entend’ et comment ‘écrit’.

Les outils et ressources proposés sont très liés à l'euskera. La plupart sont donc des programmes réalisés avec une technologie propre développée. Quant aux interfaces, bien qu'une partie du travail déjà avancé en d'autres langues soit utile, la conception des avatars est très avancée, il faut les faire parler en basque. Sur ce chemin, vous avez aussi parcouru votre chemin et vous continuerez.

La Fondation Robotiker, une référence en connectivité des équipements au Pays Basque, sera responsable de la technologie de base à Hizking21. Dans Euskal Herria, cependant, il existe d'autres agents qui travaillent dans ce domaine comme l'ASP, la Technologie Diana...

Que faire ?

La communication avec les machines est conçue de la manière la plus naturelle possible. (Photo: G. Andonegi).

Aujourd'hui, la nécessité d'un corpus général de référence de l'euskera est indéniable, plus encore si on adhère au domaine de l'ingénierie linguistique. Cependant, l'un des objectifs de Hizking21 est d'offrir une méthodologie consensuelle et contrastée qui peut être la base pour la réalisation de cet objectif global d'avenir et de développer des outils de corpus pour cela, ainsi que l'offre de ressources partielles (corpus spécialisés) qui se constituent sur cette voie.

Outils intermédiaires Outils clés dans le projet: Lematizateur, désodorisant, analyseur syntaxique, etc., qui devront être complétés, adaptés et améliorés en continu. En outre, des outils pour l'exploitation correcte des ressources linguistiques générées (analyseurs de textes, extracteurs de termes, etc.) seront également créés.

La langue ne devrait pas être un obstacle pour pouvoir accéder aux progrès.

Interfaces La communication avec les machines sera dans une certaine mesure visuelle et verbale. À mesure que la technologie avance, les résultats seront meilleurs, surtout dans la représentativité des images 3D. Aujourd’hui on obtient de bons résultats avec l’information enregistrée, mais il faut garder à l’esprit que l’immédiateté est indispensable pour que la parole soit naturelle: le système ‘comprend’ les messages, il faut créer et émettre une réponse, mais la réponse ne sera pas seulement une phrase, mais elle devra être transmise avec des gestes, des intonations et des expressions spéciales. Tout cela exige de grands besoins informatiques, tant dans le traitement linguistique que dans la synthèse du son et de l'image.

Et puis, quoi ?

Comme mentionné précédemment, le résultat du projet Hizking21 ne sera pas la création d'applications informatiques concrètes, mais la mise à disposition des applicateurs des outils et des technologies qui les permettent. Destination des entreprises de logiciels pour la réalisation d'applications en basque avec capacité linguistique. Quelles applications ? Il ne manque pas d'idées: systèmes qui reçoivent des ordres téléphoniques (comme ceux de domotique), systèmes d'information qui doivent répondre aux questions des utilisateurs, aides pour la traduction automatique, dictature automatique, lecteurs pour aveugles, systèmes d'aide pour conduire des visites dans les lieux publics, systèmes de gestion des avis dans les aéroports et les gares, etc. Les options sont infinies. Il suffit de les exécuter.

Le projet Hizking21 a un budget de 7.600.000 €. Le Département de l'Industrie, du Commerce et du Tourisme du Gouvernement Basque a nommé l'Info-ingénierie Linguistique comme une ligne de recherche d'intérêt stratégique, soutenue par le programme Etortek.

Hizking21 réunit cinq partenaires : La Fondation Elhuyar, les groupes IXA et Aholkularitza de l'Université du Pays Basque, l'association Vicomtech et la Fondation Robotiker. Collabore Eleka S.L. l'entreprise participe également à ce projet, créé entre IXA et Ehuy. Pour leur part, ils possèdent les connaissances et la capacité nécessaires pour concevoir des systèmes avec une capacité linguistique. Le travail de tous les consortiats permettra de disposer bientôt d'outils informatiques pouvant être intégrés aux applications quotidiennes.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila