Eneko Agirre: Je pense que ce sont des questions liées à la compréhension. La recherche menée ces dernières années a fait un grand bond qualitatif, mais cela ne signifie pas que la machine nous "comprend" maintenant. Je pense que de petits pas ont été faits et les machines comprennent des choses dans de plus en plus de zones. Qu'est-ce qu'un endroit, par exemple. Avec les noms de famille il y a toujours problème, Azpeitia est-il une personne ou un lieu? Ou une entreprise? Commencer à comprendre ces choses est un pas en avant. Et même si les gens semblent très simples, sans contexte, ils sont difficiles. Le défi est donc d'enseigner à la machine des fragments de ce type de connaissances.
En fait, les méthodes mathématiques et statistiques basées sur le corpus jouent en quelque sorte, font ce qu'ils pouvaient faire et ont du mal à avancer. Ceux basés sur les règles ont également donné le leur et ont été un peu coincés. Par conséquent, je pense que maintenant le défi est d'apprendre les règles des textes, et depuis les corpus essayer de les contraster en apprenant et en les contrastant en quelque sorte, et de savoir ce qui a bien appris et quel mal.
Kepa Sarasola: Pour voir quels sont les défis auxquels nous sommes confrontés aujourd'hui, il peut y avoir deux niveaux : l'un des applications et l'autre des tripes dans le langage, outils de base qui doivent ensuite être utilisés dans les applications. On peut affirmer que les besoins en lexique sont actuellement presque 100% couverts. Il y a 20 ans il n'y avait pas de dictionnaires informatiques, tous étaient en papier. Maintenant, vous avez sur Internet la signification de tous les mots, comment ils sont dits dans d'autres langues, etc. Morphologiquement, pour les langues difficiles (comme l'euskera), 95-98% est plein. En syntaxe il fait 90% bien pour l'anglais.
Alors, à quoi allons-nous ? Donc à la sémantique et à la pragmatique. Et pour cela, il y a ici un énorme changement. Il y a 20 ans, pour parler de n'importe quel sujet, nous ne parlons pas de quoi. Aujourd'hui, par exemple, nous avons Wikipedia, ou Wordnet, Internet lui-même, etc. Nous avons maintenant de nouvelles ressources pour comprendre la signification des textes. Et cela nous a ouvert une porte, mais nous n'avons pas encore beaucoup travaillé.
I Aki Alegria: Au Congrès sont venus des conférenciers invités qui réfléchissent sur le sujet. Par exemple, l'expert en syntaxe de l'Université d'Uppsala, Joakim Nivre, a souligné que le problème de la syntaxe n'est pas résolu à 100%, mais qu'il est très travaillé. Suite à la sémantique, Eneko a présenté la situation à laquelle il s'est référé. Le projet KYOTO, un système permettant de définir les significations de mots et de termes via une plate-forme wiki, a également été présenté. On a également parlé de l'extraction de la connaissance des données. Et dans son intervention, Horacio Rodríguez, de l'Université Polytechnique de Catalogne, a souligné que nous devons essayer de relever certains des défis de l'intelligence artificielle classique, mais avec plus de données et de nouvelles voies. Et moi aussi je suis un peu de cette opinion.
Sur cette voie, Google a obtenu de très bons résultats en utilisant quelques méthodes de base de l'intelligence artificielle. Mais si vous n'utilisez pas une connaissance plus profonde, à court terme, il y aura peu d'innovation.
I. A. Je pense que Google est en train d'inventer exploiter ce qui est fait. Il investit beaucoup, tire bon parti, a gagné la célébrité et a fait une marque. Ces connaissances ou outils pourraient être intégrés dans des applications publiques et industrielles. Mais ils ne fournissent pas assez d'informations et la demande des applications est inférieure à ce que prévu.
R. A. Dans la recherche, vous ne savez pas qui viendra avec la bonne idée. Bien qu'il y ait une grande équipe de recherche, peut-être les bonnes idées ne sortent pas de là, vous ne pouvez pas prédire. Pour cette raison, les grandes entreprises, comme Google, en plus de développer leurs projets, fichan chercheurs réussis.
Beaucoup de gens sont allés à Google. Aux États-Unis ont mentionné que les meilleurs chercheurs sont allés à Google. Beaucoup de gens ont été accueillis parmi les jeunes et dans les universités on a remarqué cela. Les gens sont allés là-bas, puis ont dit que sur Google tout n'est pas si beau, mais très peu ont fait la renommée de là.
I. A. Dans ce domaine, les applications qui donnent de l'argent sont détaillées. Killer applications. Historiquement, trois types d'applications ont été inclus dans ce groupe : traduction automatique, proofing tools (c'est-à-dire outils pour éditeurs de texte, principalement correcteurs) et recherche. Précisément, le début de Google a été le monde de la recherche. Maintenant, la traduction automatique est en cours et dernièrement, il travaille également sur les systèmes d'exploitation de téléphones et dans proofing tools. En quelque sorte, le risque pourrait être que Google monopolice toutes ces enquêtes.
C. S: D'une part, nous sommes heureux parce qu'on voit clairement que les techniques que nous travaillons sont utiles. Il est montré encore et encore. Mais, d'autre part, nous nous inquiétons que Google ait des données parce qu'ils sont les seuls. Ils savent ce que les gens demandent, ce qu'ils cherchent. Et ce que les gens choisissent dans les résultats de recherche. Pour eux, il est très important d'améliorer le système. En demandant un mot la plupart des personnes cliquent la quatrième option et peu après ce quatrième sera la même. Ces données d'utilisation sont très importantes, mais appartiennent à Google.
R. A. Google sait que l'innovation est la voie à suivre. Ils dirigent toutes les énergies vers l'innovation.
I. A. Et ils donnent la priorité à l'argent. L'argent, là, eux. Et cela a quelques conséquences. Par exemple, Google cherche très mal en basque. Et il leur a été dit. Mais cela ne les intéresse pas. À un moment donné, il a été décidé de travailler avec un maximum de quarante langues. Dans le reste ils font une recherche littérale. C'est un problème, mais la marque a beaucoup de force. Il est également intégré dans de nombreuses applications, etc. Mais aujourd'hui l'application Elebila cherche beaucoup mieux la version en basque.
I. A. L'anglais est la référence. Par exemple, un chercheur éthiopien est venu au congrès. Là, ils parlent en langue maternelle. C'est un langage sémitique, ils doivent utiliser un autre type de clavier, mais en l'absence de tels claviers sur les téléphones mobiles, les messages sont envoyés uniquement en anglais.
Il est clair que le basque est petit. D'un point de vue économiciste, la demande est faible, donc il ya des problèmes. Au niveau de la recherche, nous sommes satisfaits. Dans certains domaines, au moins, nous sommes une référence pour d'autres langues minoritaires. Les applications basées sur le corpus exigent des investissements pour obtenir les corpus eux-mêmes.
R. A. En tant que langue, le basque a sa propre typologie, mais il n'est pas particulièrement difficile à calculer si on le compare à d'autres langues. Bien que la morphologie est plus difficile à traiter, dans d'autres domaines, comme la phonétique, il est très facile. Chaque langue a ses différences difficiles et simples, mais en général, compte tenu de toutes les caractéristiques de la langue, la difficulté de toutes les langues est similaire.
Et pour comparer avec d'autres langues, il faut voir chaque langue en fonction du nombre de locuteurs. Je pense que l'euskera est assez proche des langues les plus parlées. La différence la plus significative est la petite taille des corpus utilisés, que je crois être le principal manque en euskera. En anglais, par exemple, il y a un corpus de milliards de mots. Et les machines apprennent de grands corpus. Mais, selon les ressources, nous sommes en haut de la liste.
C. S: Quant au nombre de locuteurs, j'ai vu l'euskera dans la liste 256, et dans la recherche nous sommes parmi les 50 premiers. Pourquoi ? Parce qu'il y a eu des aides officielles, et je crois que nous qui sommes ici faisons les choses ordonnées. Nous avons fait les choses d'une manière ordonnée et planifiée. Les outils et les ressources que vous générez à un moment donné sont précieux à l'avenir. Nous travaillons de façon incrémentielle.
Le groupe IXA travaille sur le traitement de l'euskera. Ils ne sont pas les seuls. Mais un robot est chercheur de référence dans l'effort pour parler en basque. Si les grandes entreprises, par exemple, souhaitent développer des applications en basque, elles devraient probablement s'adresser à elles. Entre autres, ils ont participé au développement du projet ANHITZ, créant un personnage virtuel qui répond à des questions scientifiques. En bref, un robot qui parle. C'est un bon exemple du traitement du langage; vu de l'extérieur, ANHITZ ne semble pas une application révolutionnaire, car il ne répond pas aussi vite et facilement qu'un robot de fiction. Au contraire, celui qui connaît le travail derrière le projet réalise une évaluation très positive. Il y a beaucoup à faire dans le traitement du langage, il n'y a aucun doute. Mais ce qui est fait est un travail énorme, il n'y a aucun doute à ce sujet.