Si vous avez suivi cette rubrique « Monde numérique » au cours des trois dernières années, vous serez convaincu que les technologies linguistiques seront de plus en plus importantes dans le monde des appareils mobiles et toujours connectés. Nous vous avons parlé de technologies comme le web sémantique et les technologies sémantiques, la traduction automatique et les corpus, les systèmes de réponse aux questions, les agents de dialogue, les chercheurs intelligents.. qui ont une présence significative et croissante dans ce nouveau monde. Ces technologies ont encore un chemin à parcourir, mais dans certains cas, elles sont aussi avancées que pour être utiles et de nombreux appareils et services sont intégrés, comme nous vous l'avons dit ici.
Cependant, en général, ils ne sont que pour les langues les plus répandues (souvent seulement en anglais); les grandes compagnies ne sont pas intéressées à y introduire l'euskera. Et même s'ils l'avaient, ils ne sont pas prêts à assumer le coût d'adapter ces technologies au basque. Cette adaptation à l'euskera n'est pas une tâche purement professionnelle ; il est parfois nécessaire de réaliser une recherche fondamentale, de développer des ressources de base...
Ainsi nous avons travaillé la Fondation Elhuyar, les groupes de recherche IXA et Aholkularitza de l'UPV, et le centre technologique Vicomtech-IK4 et Tecnalia, dans le projet BerbaTek, entre 2009 et 2011, dans la recherche de technologies linguistiques, vocales et multimédia pour le basque (principalement). Les départements de l'Industrie et de la Culture du Gouvernement Basque ont financé une partie du budget du projet BerbaTek à travers le programme Etortek.
Ce n'est pas la première fois que ces 5 organisations collaborent à la recherche sur les technologies linguistiques. Auparavant, nous avons travaillé sur le projet Hizking XXI pour la période 2002-2004 et sur le projet AnHitz pour la période 2006-2008. À la fin de ce dernier, nous avons construit une démo d'expert virtuel en science, également appelé AnHitz, un avatar 3D avec interaction orale capable de répondre à des questions scientifiques et effectuer des recherches multilingues.
Dans le projet BerbaTek, nous avons réalisé une grande recherche de base : nous avons développé ou amélioré de nombreuses ressources et outils de base (corpus de texte ou voix, lexiques, dictionnaires, ontologies, grammaires informatiques, analyseurs morphosynactiques, reconnaissance vocale, synthèse vocale, systèmes de dialogue...) et nous avons travaillé sur différentes technologies (traduction automatique, recherche d'information, extraction d'information, systèmes d'aide à l'écriture. Les technologies développées ont été utilisées dans différents projets et services.
Bien que le projet BerbaTek soit un projet de recherche, l'utilisation pratique de cette recherche a été dès le début l'un des principaux objectifs pour nous. Et nous avons voulu donner cette praticité dans le domaine de l'industrie des langues.
On entend par industrie linguistique celle composée de trois sous-secteurs : traduction (traductions, localisations, interprétation, doublage...), contenus (éditoriaux, médias...) et enseignement (enseignement des langues, enseignement réglementé...). Au Pays Basque, on a récemment commencé les premiers pas pour structurer le secteur de l'industrie des langues: En 2010 a été créée l'Association des Entreprises du Pays Basque de l'Industrie des Langues Langune, avec plus de 30 partenaires. Depuis sa création, les membres de BerbaTek ont participé activement et BerbaTek a vocation à servir de support technologique à l'industrie et à l'association.
Beaucoup de technologies développées à BerbaTek ont une application directe dans l'un des trois secteurs de l'industrie des langues, et d'autres outils, ressources et technologies sont d'application dans l'un d'eux ou sont les bases du développement d'autres technologies.
Le schéma représente graphiquement l'industrie des langues et leurs domaines, et ce que BerbaTek peut apporter à chacune et en général.
Comme nous l'avons déjà dit, BerbaTek a vocation à être une application pratique dans l'industrie des langues, et la preuve en est que pour les trois sous-secteurs de cette industrie, nous avons construit une démo combinant différentes technologies.
Comme preuve de la contribution des technologies linguistiques dans le domaine du contenu, nous avons réalisé un chercheur sémantique multimédia de science et technologie. Ce moteur de recherche est basé sur l'ontologie spécialisée WNTerm en science et technologie, construite par Elhuyar et le Groupe IXA (un réseau sémantiquement lié aux concepts de science et technologie, avec sous-classes, synonymes, etc.) et sur le contenu d'Elhuyar (images et textes du magazine Elhuyar, vidéo de l'émission de télévision Teknopolis et audio de Norko Ferrokarrilla). Grâce à la technologie développée par Tecnalia, lorsqu'un terme est recherché, l'ontologie permet également de rechercher des contenus contenant des synonymes, des sous-classes ou des superclasses de ce terme. De plus, lorsque le résultat est une image, il offre des images similaires en utilisant la technologie Vicomtech-IK4.
Dans le domaine de la traduction, une démo de doublage automatique de documentaires a été réalisée. La duplication automatique des films est un défi difficile pour l'instant (de nombreuses voix, langage familier, vitesses différentes...), mais avec quelques types de documentaires (un seul orateur, voix off, coordination avec les lèvres n'est pas nécessaire ou important...) nous avons fait une démo qui fonctionne bien. En diffusant un documentaire en espagnol et une transcription de ce qui y est dit (cette transcription peut être obtenue automatiquement si on veut, puisqu'il existe sur le marché des programmes de dictée pour l'espagnol), la technologie d'alignement temporaire de Vicomtech-IK4 permet d'obtenir un fichier de sous-titres (la transcription, mais avec les moments initial et final de chaque phrase). Par la suite, le traducteur automatique Matxin du groupe IXA traduit ces sous-titres en basque, et la technologie de conversion de voix de texte de Zapore Jai génère une voix synchronisée en basque. Cette démo a été appliquée avec succès aux paragraphes d'un seul rapporteur du programme Teknopolis réalisé par Elhuyar.
Enfin, nous avons fait la démo d'un tuteur personnel de l'enseignement des langues dans le domaine de l'enseignement. Ce tuteur est un personnage 3D capable d'exprimer des émotions, développé par Vicomtech-IK4, qui parle en basque et comprend ce qu'on lui dit en basque, grâce à la technologie de Zapore Jai. Et le tuteur peut nous aider à: La technologie IXA nous permet de réaliser des exercices grammaticaux (verbes, déclinaison...) ou des exercices de compréhension (remplir les lacunes d'un texte en donnant plusieurs options) créés automatiquement; nous évalue la prononciation grâce à la technologie d'Aholab; ou offre des aides à l'écriture (comportement des verbes, écriture des nombres, consultations de dictionnaire...), Grâce à la technologie IXA et Elhuyar.
Dans le projet BerbaTek, nous accordons de l'importance, outre la recherche fondamentale et l'application pratique, à la divulgation. Pour nous, il est fondamental de faire connaître le travail réalisé dans des forums de recherche, congrès et revues spécialisées, mais aussi de montrer à la société en général l'importance des technologies linguistiques et vocales et de faire connaître les réalisations que nous avons réalisées dans ce domaine pour le basque. Pour atteindre ce dernier objectif, nous avons élaboré un site web ( http://www.berbatek.com ) dans lequel, en plus d'informer de manière générale sur le projet BerbaTek, nous informons périodiquement des progrès réalisés dans ce dernier. De plus, grâce à l'Observatoire des Technologies Linguistiques, Voyelles et Multimédia (Un Chercheur de nouvelles d'autres sites), nous faisons connaître ce qui se passe dans le monde des technologies linguistiques, ainsi que les événements les plus importants au niveau local et international via le Calendrier des Événements.
Nous sommes très satisfaits et fiers des résultats obtenus par BerbaTek dans le projet. Mais si l'euskera ne veut pas rester en arrière dans les technologies linguistiques et donc dans ce nouveau monde numérique, il nous revient encore de travailler dur dans les années à venir. Tous les membres du projet BerbaTek sont prêts à relever ce défi.