Expert .eus, service de conversation en basque

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Dans le groupe de R & D des technologies linguistiques et de la parole de la Fondation Elhuyar, nous développons et socialisons depuis des années des ressources, technologies et services pertinents pour l'euskera: dictionnaires, corpus, correcteurs, chercheurs, extraction de opinions, traducteurs, synthèse de langue... Dans certaines d'entre elles, en raison de la difficulté de la problématique, la technologie donnait des résultats expérimentaux, mais non applicables à des applications réelles, ou bien pour le basque nous n'avions pas la technologie d'autres langues. Mais ces dernières années, grâce à la technologie des réseaux neuronaux profonds, nous avons beaucoup progressé. Ainsi, en novembre, nous publions Itzultzaile ea.eus, traducteur automatique multilingue basé sur des réseaux neuronaux (basque, espagnol, français, catalan, galicien et anglais), et en mars, une reconnaissance bilingue basée sur des réseaux neuronaux : Expert.eus
aditueus-hizketa-ezagutzeko-euskarazko-zerbitzua
Ed. Elhuyar

La parole est l'une des formes de communication les plus anciennes et les plus différenciantes que nous ayons entre nous (une des caractéristiques qui nous différencie des animaux). Plus tard est venue la communication écrite qui, en plus de la communication, a la capacité de conserver la connaissance. Le langage est le moyen le plus naturel de communication entre les gens, mais le chemin que nous avons utilisé les gens pour communiquer avec les ordinateurs est écrit: nous introduisons les commandes, la programmation et les textes sur le clavier, qui utilise les textes de l'écran pour afficher les résultats. C'est parce que les ordinateurs n'étaient pas capables de comprendre le langage humain.

Ces dernières années, la création et l'amélioration des systèmes de reconnaissance de la parole ont progressivement élargi les systèmes d'introduction de la parole : agents de dialogue, sous-titreurs automatiques, haut-parleurs intelligents, systèmes de dictée... Mais l'euskera n'a pas été dans ces systèmes.

Il y a un an, nous avons expliqué dans le magazine les solutions basées sur les technologies de parole pour l'accessibilité développées à Elhuyar : outil de lecture de pages web, lecteur numérique, Wikispeech, Voyage... Ils sont tous basés sur la synthèse de la parole, c'est-à-dire sur la technologie utilisée par les ordinateurs pour créer la parole en fournissant un texte. Nous parlions alors de la façon dont les technologies pour la reconnaissance de la parole peuvent contribuer à l'accessibilité et l'inclusion (contrôle des ordinateurs et autres machines par la parole, systèmes de dictature, sous-titrage automatique...). En d'autres langues oui, mais en basque ce système n'existait pas. Eh bien, en Mars, nous avons lancé le service de reconnaissance de la parole en basque, adapté pour l'accessibilité et d'autres utilisations: Expert.eus

Jakin.eus, le connaisseur de la parole d'Elhuyar

Expert est un spécialiste de la parole basé sur des réseaux neuronaux profonds. Son nom est très approprié. Le verbe expert a deux sens principaux: écouter le premier et comprendre le second, et c'est ce que fait Expert, écouter et comprendre ce que nous lui disons (parce qu'il donne par écrit le prix de ce que nous avons entendu). D'autre part, la principale acception du nom expert ou adjectif est la sagesse, la sagesse, l'apprise, qui est aussi le système expert.

Il est offert comme service ou plateforme web en https://perit.eus Il connaît l'euskera et l'espagnol (aujourd'hui nécessaire pour que la société basque et les institutions et agents puissent l'utiliser). Nous prévoyons également d'introduire davantage de langues à l'avenir.

Sur cette plate-forme, nous pouvons télécharger un fichier audio ou vidéo, ainsi qu'un lien vers une vidéo ou audio en ligne (par exemple, ITIE, Youtube, Facebook, Instagram...), et Expert effectue la transcription automatique et instantanée de ce qui y est dit. Le résultat est présenté dans différents formats : texte de la transcription, fichier de sous-titres et transcription avec le temps des mots (par exemple, pour savoir dans quelle seconde un mot a été dit exactement dans la vidéo). La transcription ou les sous-titres peuvent être corrigés ou modifiés avant de télécharger, en utilisant l'interface d'édition en ligne d'Aditu. En outre, il permet de transcrire simultanément ce que nous disons depuis le microphone de l'ordinateur ou du téléphone mobile.

Ed. Elhuyar

En plus de pouvoir profiter du service Web, nous offrons des solutions sur mesure pour les entreprises et les institutions. Le service peut être intégré dans le flux de travail du client, dans l'application, dans le CMS, etc. utilisant l'API. La transcription simultanée peut également être utilisée par l'API pour l'intégration dans un assistant virtuel, des sous-titres directs dans les événements, etc. Ou si vous le souhaitez, vous pouvez également l'installer sur le client.

Du point de vue de l’accessibilité, sous-titré, dicté ou ordonné à l’ordinateur, en passant par l’incorporation automatique de sous-titres de documentaires et de programmes aux entreprises audiovisuelles, à la télévision et aux radios, en passant par la transcription d’enregistrements d’interviews aux journalistes, la levée de procès-verbaux ou d’autres réunions ou le placement direct de sous-titres dans les sessions publiques, la création de sous-titres de conférences ou de cours, l’interactivité des personnes, etc.

La qualité de la transcription ou le taux d'invention de l'expert est généralement bonne, mais il est vrai qu'il est très variable en fonction de la qualité de l'enregistrement audio, la qualité des microphones, l'écho, si on entend du bruit ou de la musique en haut, l'enregistrement, si on parle en langue standard ou dans l'une de ses variantes, le volume, la vitesse, etc. Dans des conditions optimales, le taux d'invention peut dépasser 95%. Ses meilleurs résultats sont des conférences, des présentations, des informations, des documentaires, des reportages, etc. Au contraire, il est pire dans les dialectes basques, spontanés et informels, les films... En outre, les résultats sont toujours un peu pires dans le cas de la transcription simultanée. Cependant, dans la plupart des cas, il est totalement utile.

De nombreuses options pour l'avenir

Voir la lumière est un jalon pour Elhuyar et pour l'euskera, mais ce n'est pas la fin ou le destin du chemin, mais le commencement. Nous devons continuer à améliorer les experts pour améliorer la connaissance de la parole avec des interviews informelles, mauvaise qualité audio, dialectes, films... ou, pourquoi pas, avec des vers.

De plus, si nous combinons la connaissance de la parole avec d'autres technologies linguistiques et de parole que nous travaillons pour le basque (traduction automatique, chatbots, synthèse ou création de parole...), pensez à ce que vous pouvez faire : haut-parleurs intelligents, traduction simultanée de la parole à la parole (imitant les voix originales si vous le souhaitez)... Nous voyons l'avenir avec enthousiasme pour que le basque soit au même niveau que les autres langues dans les technologies et les services. À Elhuyar, nous continuerons à y travailler.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila