Quoi écouter, écrire

Kortabitarte Egiguren, Irati

Elhuyar Zientzia

Recherche écrite est facile sur le net. Pour cela, il suffit d'écrire le mot que nous voulons consulter dans le moteur de recherche. Dans ces recherches, cependant, on perd, entre autres, ce qui est indiqué dans les fichiers audio, à condition que les explications de ce qui est indiqué dans ces fichiers audio ne soient pas recueillies dans le texte écrit.
Quoi écouter, écrire
01/03/2008 Kortabitarte Egiguren, Irati Elhuyar Zientzia Komunikazioa

Les programmes ETB Gaur Egun utilisent, entre autres, pour former des systèmes de traitement de la parole.
EITB
Connaître la parole orale et la convertir en texte n'est pas une tâche facile. Les mots ne se séparent pas bien les uns des autres, il faut tenir compte de l'intonation et de plus le bruit des signaux physiques est un obstacle. En ce sens, un large marché a été ouvert aux systèmes qui traitent et comprennent la parole orale. C'est-à-dire pour les outils qui nous convertissent en texte écrit.

Ces systèmes sont intégrés pour le moment principalement dans les services téléphoniques comme rendez-vous, demande de produits, demande de réservation pour spectacles, etc. Mais il y a d'autres comme la dictée automatique. Dans cette dernière, nous travaillons, entre autres, au département d'Ingénierie des Systèmes et Automatique de l'UPV/EHU.

Le traitement de la parole exige beaucoup et une bonne formation. Autrement dit, le système doit recevoir une certaine formation, ce qui est connu comme machine learning. Pour cela, il faut d'une part des fichiers, des audios et des sons de télévision et de radio, et d'autre part des textes de référence de ce qui a été dit dans ces médias. Des chercheurs de l'UPV, par exemple, utilisent fréquemment les programmes Gaur Egun et Teleberri de l'ETB pour former le système. Vous n'avez pas besoin de savoir ce qui a été dit littéralement, mais vous êtes en mesure de recueillir un résumé de ce qui a été dit. En définitive, il essaie de comprendre la relation entre les sons et les mots.

Une fois le processus d'apprentissage terminé, le système devrait être en mesure de comprendre ce qui a été dit dans n'importe quel Gaur Egun ou Teleberri. Bien que l'apprentissage soit un processus lent, une fois que le système a les règles ou les informations intériorisées, c'est-à-dire qu'il a le matériel de référence approprié, il affiche le résultat avec une certaine rapidité. Dans ce cas, texte écrit du parlé. En bref, l'objectif est d'obtenir du texte à partir d'un son ou audio.

Petit grand grand

Il est vrai que la plupart de ces applications qui peuvent être trouvés sur le marché visent les “grandes” langues, en particulier l'anglais. Cependant, des chercheurs de l'École Universitaire Polytechnique de Saint-Sébastien, en collaboration avec les groupes IXA, GTTS et Intelligence Computationnelle de l'UPV/EHU, travaillent avec le basque. La différence évidente entre ces langues 'grandes' et 'petites' réside dans le nombre de données de référence. Ce type d'outils anglais a beaucoup de données, tandis que le matériel de référence en basque est assez mineur. Par conséquent, les chercheurs recherchent de nouvelles techniques pour mieux exploiter et plus précisément ces quelques données.

La fréquence et l'intonation de ce qui a été dit oralement aident à différencier le type d'information que le système reçoit.
UPV/EHU
Pour obtenir ce degré de précision, ils utilisent plusieurs équations mathématiques. Ils essaient de trouver les caractéristiques les plus pertinentes des ensembles de données et fichiers audio qui fournissent des informations adéquates. Cependant, il est assez difficile de faire cette sélection, à savoir choisir les informations qui seront reçues et qui seront rejetées. Ils travaillent souvent et intonent pour différencier le type d'information que le système reçoit à tout moment (par exemple, s'il s'agit d'une question ou d'une prière expressive).

Ces systèmes dépendent entièrement de la langue et chaque langue a son propre outil. Mais, par exemple, les chercheurs de l'UPV/EHU travaillent non seulement avec l'euskera, mais aussi avec l'espagnol et le français. Le programme Teleberri ou les sessions d'Infozazpi, par exemple, ont deux objectifs principaux: d'une part, ils veulent comprendre le castillan et le français - avec le basque -, et d'autre part, chercher dans ce type de systèmes les similitudes existantes entre le basque et les deux autres langues pour pouvoir améliorer la formation des outils en basque.

À cet égard, un certain nombre d'essais sont actuellement en cours, analysant la possibilité d'utiliser plusieurs langues dans un même outil. Tel est le défi futur des chercheurs de l'UPV : développer un système capable de comprendre l'euskera, l'espagnol et le français.

Résumé du projet
Ce groupe de recherche travaille dans le domaine des connaissances plurilingues de la langue basque et des langues qui l'entourent. En particulier, ils développent divers outils et ressources pour l'accès automatique à l'information à travers le langage informatif des médias basques. Pour ce faire, ils étudient les techniques pour obtenir cette information de la manière la plus efficace possible et, surtout, développent des méthodes pour des langues minoritaires comme le basque.
Directeur général
Dr. Miren Karmele López de Ianas.
Équipe de travail
C.M. López de Ianas 1 , N. Barroso 1 , N. Gilisagasti 1 , I. Ariztimuño 1 , A. Nov 1 , N. Ezeiza 2 et M. Hernández 2.
Département
Systèmes d'ingénierie et automatique.
Faculté
1 Ecole Universitaire Polytechnique de Saint-Sébastien et 2 Faculté d'Informatique.
Sur la gauche, Ixabel Ariztimuño, Nora Barroso, Aitzol Ezeiza, Karmele Lopez de Ianas et Nerea Ezeiza.
(Photo: UPV)
Kortabitarte Egiguren, Irati
Services
En savoir plus
2008 - 2008 2008 2008 2008
Services
036 036
Universités et écoles Universités
Diffusion de la connaissance
Autres
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila