Nouvelle synthèse neuronale parlant Elhuyar

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

En 2014, Elhuyar a lancé un nouveau service technologique: la synthèse de la parole. Cette technologie qui permet de convertir des textes en audio a depuis été utilisée par nos clients pour offrir différents services. Les technologies de la langue et de la parole ont beaucoup progressé grâce à la technologie des réseaux neuronaux, et à Elhuyar, nous avons développé une technologie neuronale propre de synthèse de la parole, avec une meilleure qualité et de nouvelles possibilités. Nous connaissons le nouveau service web de synthèse linguistique.

elhuyarren-hizketa-sintesi-neuronal-berria
Ed. Jackie Niam/Shutterstoc.com

Dans les technologies de la parole, deux technologies prédominent : ASR (Automatic Speech Recognition) ou connaissance de la parole, qui consiste en la transcription ou la conversion d'un audio parlant en texte, appelé TTS (Text-To-Speech) ou synthèse de la parole, qui consiste en la lecture ou la conversion d'un texte en audio. Depuis quelques années, nous travaillons pour l'euskera dans le centre d'intelligence artificielle Orai, créé par Elhuyar, et, sur la base des deux, Elhuyar socialise les services en euskera. En ce qui concerne l’ASR, nous avons lancé en 2020 le service de transcription, de sous-titrage et de dicté Aditu .eus. En ce qui concerne la TTS, le service de conversion de texte en ligne vocale et le site web sont disponibles depuis 2014.

Ce service était basé sur la technologie Aho TTS développée par le groupe de recherche Aholab de l'Université du Pays Basque, qui s'est développé avec la meilleure logique techno-technique de l'époque et était le seul qui fonctionnait en euskera. Au cours de ces années, la technologie a été utilisée dans divers endroits et cas: pour permettre d'écouter le contenu de certains sites (Elhuyar aldizkaria, Zientzia. eus, EITB.eus, Sarean .eus, le service pour les personnes handicapées de l'UPV, afin que les enseignants puissent partager du matériel et des ressources souhaitées, le site Internet Ama­rauna du département de l'éducation...), pour aider les élèves à exprimer dans le dictionnaire numérique.

Nouvelle technologie neuronale TTS

Depuis lors, toutes les technologies linguistiques et anglophones, y compris le TTS, sont devenues opérationnelles grâce à la technologie connue sous le nom de réseaux neuronaux profonds (deep neural networks) ou deep learning, qui offre des résultats bien meilleurs. Et bien que l’on dise alors que la parole que nous avons créée synthétiquement était assez naturelle (et c’était pour les normes d’alors), ce qui est aujourd’hui obtenu avec les réseaux neuronaux est beaucoup plus naturel, du langage presque authentique à l’infini.

Eh bien, au cours des dernières années, à Orai, nous avons développé une synthèse neuronale de la parole en basque, et nous avons déjà notre propre système. C'est de très bonne qualité ce qui semble un authentique parle dans la prononciation, l'intonation, la prosodie... De plus, avec les technologies actuelles, nous pouvons faire des choses qui auparavant coûtaient plus cher et avoir de nouvelles fonctionnalités. Par exemple, dans le système précédent, pour chaque voix différente que l'on voulait créer, un modèle était formé et un nombre suffisant d'enregistrements étaient nécessaires. Aujourd'hui, cependant, dans un même modèle, nous pouvons avoir beaucoup plus de voix et avec beaucoup moins de temps d'enregistrement, de sorte que nous pouvons créer plus facilement de nouvelles voix synthétiques.

De plus, vous pouvez créer des modèles multilingues que nous avons créés en six langues : basque, espagnol, français, anglais, catalan et galicien. Grâce à elles, on peut obtenir que les enregistrements soient réalisés avec une personne dans une langue donnée (par exemple, euskera), mais ensuite le modèle entraîné par ces enregistrements soit capable de faire une synthèse dans une autre langue (par exemple, anglais, français ou catalan) avec la voix de cette personne! Autrement dit, vous pouvez mettre une personne « parlant » dans une autre langue, sans avoir aucune idée de cette langue !

Service Web multi-usage facultatif

Cette année, Elhuyar a lancé le service web basé sur la nouvelle technologie neuronale en https://ttsneuronala.elhuyar.eus/. Entre les six langues mentionnées et chacune d'elles, nous pouvons choisir entre deux ou quatre voix différentes, donner un texte et le transformer en une parole. La qualité des voix est vérifiée via la boîte de texte du web.

De plus, si nous le voulons, nous pouvons également créer notre voix personnalisée, que nous ne pourrons utiliser que. Pour ce faire, il suffit d'enregistrer une dizaine de minutes en lisant quelques phrases, puis de faire une synthèse de parole avec notre voix dans la langue enregistrée ou dans n'importe quel autre. Des exemples de voix personnalisées ainsi créées peuvent être consultés sur les pages Web du magazine Elhuyar ou de Goiena (dans le cas d'Elhuyar, vous pouvez également passer à d'autres options).

Il existe plusieurs façons d'utiliser la technologie. La plus simple et la plus simple est la boîte de texte, où nous collerons le texte souhaité et créerons l'audio. Nous offrons également une API qui nous permet d'accéder à notre application ou service. Et si, au lieu de lire une page web, vous voulez donner l'occasion de l'écouter, nous offrons également le code d'une barre de lecture, qui est facilement insérée dans le web.

Les clients d'avant le service TTS ont déjà migré vers de nouveaux services et de nouvelles voix, et bénéficient également de nouvelles entreprises (Tokikom, Skura, Batasuna, Ulma, Ibil, Naiz...), dont beaucoup avec des voix personnalisées.

Et quelle est l'utilisation réelle de la technologie TTS, pourquoi ces clients utilisent ? Car il a de nombreuses utilisations possibles. L'une des plus courantes est de rendre les pages Web plus accessibles et/ou accessibles via la barre de lecture (par exemple, en marchant sur mobile ou en transports en commun). Grâce à l'API, et en combinaison avec l'ASR, l'interaction avec des machines ou des applications est également autorisée par la parole. En utilisant la boîte de texte, nous pouvons créer un podcast audible sans avoir besoin de l'enregistrer directement à partir du texte, ou créer des voix off pour notre audiovisuel. Dans un proche avenir, il sera également possible de réaliser le doublage (semi-automatique) en ajoutant le TTS à notre service de sous-titrage et de traduction automatique Aditu.

Pour le moment, notre technologie TTS crée une parole neutre, suffisante pour lire le contenu d'un média ou d'un site Web, pour parler une machine ou pour des voix off. Mais à Orai, nous continuons à rechercher dans de nombreuses directions, pour avoir aussi des voix émotionnelles, pour paramétrer et modeler à la carte la parole qui se produit (vitesse de chaque intervalle, intonation, bolu­mination...), afin de pouvoir réaliser une synthèse en imitant une voix avec un petit échantillon sans entraîner des modèles propres par des enregistrements... Tout à fait observables, pour que ce type d'outils soient également présents dans un monde de plus en plus technologique et technologique.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila