Au lieu de lire, écouter

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Bien que la forme la plus ancienne et habituelle de communication entre les humains soit par la parole, l'interaction avec les ordinateurs a été traditionnellement écrite ou visuelle. Ces derniers temps, cependant, la communication vocale avec les machines se répand de plus en plus et sont capables de mieux traiter la parole automatiquement. Ici aussi, nous y travaillons, et la revue Elhuyar et Zientzia.net, au lieu de la lire, peuvent maintenant être entendus.
irakurri-beharrean-entzun
Ed. SEREZNIY/350RF

Si les technologies vocales n'ont pas été utilisées jusqu'à récemment, ce n'est pas parce qu'il n'y aurait pas besoin d'être, mais parce que la technologie n'était pas encore assez mûre et avancée. Les besoins et applications possibles ont toujours été nombreux.

Ce qui nous vient d'abord à la tête de ces utilisations possibles est l'interaction avec les appareils numériques. Au lieu de donner des ordres à l'ordinateur, téléphone ou tablette sur le clavier par écrit ou en cliquant avec la souris, il peut être plus confortable et rapide dans de nombreux cas le faire verbalement. Et pour obtenir le résultat de la machine, au lieu de le lire à l'écran, il peut souvent être plus confortable d'écouter. Des exemples d'interaction vocale sont les agents de dialogue de type Siri qui se voient de plus en plus sur les appareils mobiles (dont nous vous avions déjà parlé en janvier 2012).

Ils peuvent également collaborer à la communication interpersonnelle. Combinée à la traduction automatique, les technologies vocales permettent de réaliser des traducteurs vocaux.

Une autre application est la gestion de l'information. Les ordinateurs traitent facilement et rapidement l'information écrite et peuvent faire des outils très utiles comme les chercheurs. Cependant, quand il s'agit d'enregistrements audio, les machines ne sont pas capables de les comprendre et doivent être transcrites. Au contraire, si elles sont capables de comprendre la parole à travers les technologies vocales, les machines elles-mêmes convertiraient la voix en texte et en audio

les dossiers pourraient être facilement indexés pour la recherche (par exemple, BBC catalogue tous les audios de radio de toute leur histoire pour la recherche) ou sous-titre automatiquement les films.

Synthèse vocale

Dans les technologies vocales, un aspect important est la connaissance de la voix, mais dans cet article nous nous concentrerons sur la technologie dans le sens inverse : la synthèse vocale, également connue sous le nom de TTS (Text To Speech) en anglais. Cette technologie génère l'audio d'une parole à partir d'un texte, avec des voix synthétiques ou artificielles, de la manière la plus naturelle possible. Et cela, en partie, est assez réussi, au moins pour une intonation neutre. Curieusement, les robots apparaissant dans de vieux films de science-fiction étaient des machines très intelligentes et n'avaient aucun problème pour comprendre ce qu'on leur disait, mais ils parlaient d'une manière très artificielle et robotique (bien sûr). Mais en réalité, le contraire est arrivé: aujourd'hui les machines peuvent parler assez bien, comprendre, mais pas si bien, et il manque encore beaucoup de marge pour être intelligent...

Les chercheurs travaillent également sur la synthèse vocale émotionnelle, à savoir que la voix synthétique exprime des émotions telles que la colère, la joie, la surprise ou la peine. Dans de nombreux cas, il ne suffit pas de dire les choses avec une intonation neutre, par exemple, si vous voulez dupliquer le film et le filtrer automatiquement.

Pour que la voix synthétique créée paraisse naturelle, il faut faire beaucoup d'enregistrements de personnes réelles, en obtenant une parole avec la même voix que cette personne, qui semble être ce que dit une personne réelle. Mais cela a un problème, car lorsque vous avez besoin de nombreuses voix différentes ne sert pas (par exemple, pour doubler les films mentionnés ci-dessus). C'est pourquoi il existe aussi la technologie de la transformation des voix, c'est-à-dire la technologie pour faire apparaitre une voix synthétique basée sur des enregistrements comme la propriété d'une autre personne. Il est utilisé, par exemple, pour élaborer des synthétiseurs vocaux qui ressemblent à votre voix pour les personnes qui ont perdu la capacité de parler.

Synthèse vocale en basque pour écouter la revue Elhuyar et Zientzia.net!

Nous avons déjà dit que les technologies vocales sont assez avancées aujourd'hui et sont de plus en plus utilisées. Cependant, ces technologies dépendent de la langue (peut-être à l'exception de la détection du conférencier) et ne sont pas au même niveau de développement pour toutes les langues. Comme toujours, ces technologies sont très développées pour quelques langues (celles de toujours : anglais, espagnol, allemand, chinois...) et pour la plupart des autres beaucoup plus décalées.

Bien que n'étant pas à la hauteur de ces langues avec le meilleur développement, l'euskera n'est heureusement pas l'une des langues qui se trouvent dans le dernier wagon. Nous travaillons depuis des années sur des technologies vocales pour le basque. Et dans ce travail, nous avons comme référence et pionnier le groupe de recherche de l'UPV Aholkularitza. Toutes les technologies mentionnées ont été et sont en phase d'élaboration.

La technologie la plus avancée pour l'euskera de Kontseilua, naturellement, est celle de la synthèse vocale. Ils obtiennent une voix synthétique neutre de très bonne qualité et qui peut être utilisée dans les applications. C'est pourquoi, en collaboration avec Zapore Jai, l'unité de Langue et Technologie d'Elhuyar a développé la technologie d'écoute à travers la synthèse vocale au lieu de lire les pages web.

Parce que nous ne naviguons plus seulement sur les ordinateurs de bureau sur le web. Nous sommes de plus en plus sur Internet à partir de nos smartphones et tablettes. Et en elles, les conditions de lecture des pages web ne sont pas très adéquates : c'est un petit écran (surtout sur les téléphones), nous sommes souvent en mouvement (à pied, dans le train, dans le bus...), etc. Cependant, sur ces appareils, nous sommes très habitués à écouter le contenu (musique, podcasts...) avec les écouteurs. C'est pourquoi il nous a paru très intéressant de développer cette technologie pour pouvoir écouter des webs. Au lieu de lire le contenu sur l'ordinateur ou appareil mobile, l'utilisateur peut l'écouter tout en faisant autre chose.

Pour le moment, nous avons mis cette technologie sur le site de la revue Elhuyar et sur Zientzia.net. Étant dans un contenu local (un article, un reportage...), une barre apparaît sur laquelle apparaît un bouton typique sous forme de « play ». En cliquant ici, nous avons commencé à écouter l'article. L'écoute se répète et la phrase que nous écoutons apparaît marquée. Il y a aussi des boutons pour naviguer dans l'écoute (pour aller à la phrase précédente ou suivante, au paragraphore précédent ou à côté, ou à l'endroit que nous voulons). En outre, nous pouvons modifier la voix (entre une femme et un homme), le volume et la vitesse. En outre, si nous sommes dans un numéro de la revue, en appuyant sur le bouton d'écoute, nous pouvons entendre successivement tous les articles de ce numéro, ce qui peut être très intéressant si nous allons en voiture sur un voyage relativement long, car au lieu d'écouter la radio, nous pouvons entendre toute la revue. Enfin, dans les entretiens, il nous lit d'une voix différente de celle choisie pour différencier les questions, les questions et les réponses. Et tout cela avec la technologie HTML5 standard (en HTML5 nous avons parlé en Février 2010).

Une bonne occasion de connaître et de profiter des technologies vocales en basque. Essayez-le et découvrez-le !

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila