Les corpus sont des exemples de référence du langage écrit, de grandes collections de textes et de mots. Et ils sont sur les fondements des technologies linguistiques. Les systèmes de traduction automatique et les applications de reconnaissance vocale n'existeraient pas sans corpus, ni les dictionnaires modernes actuels.
Dirigé par le groupe de recherche Ixa de la Faculté d'Informatique de l'UPV, le chercheur de l'unité de Langue et Technologie d'Elhuyar Igor Leturia est venu sur le web pour créer corpus en euskera. Quand le travail de recherche a commencé, le plus grand corpus en basque comptait 25 millions de mots; «d’autres langues ont dépassé les 100 millions de mots dans les années 90», explique la Leturie. « Nous avons eu l’objectif de surmonter cette barrière, quand nous avons commencé à analyser si le web pouvait être une bonne source pour créer du corpus en basque », a-t-il ajouté.
Leturie a profité de l'approche “comme corpus web”, car l'utilisation du web comme source permet d'obtenir plus facilement les corpus grands que manuellement. L'extraction du corpus du web par des méthodes automatiques permet d'obtenir des corpus variés, actualisés et grands de manière beaucoup plus rapide et économique. En fait, la plus grande limitation des corpus traditionnels est leur coût: la collecte et l'adaptation de textes dans différents formats et lieux nécessite une grande main-d'œuvre, dont sont extraits les collections de mots de référence dans la langue.
Grâce au travail de recherche, la Leturie a montré qu'il est possible de consulter directement le site web comme s'il s'agissait d'un corpus en basque et, à travers les outils développés, elle a créé sur le web un corpus général de 210 millions de mots (consultable sur le portail Web-Corpus). «Plus de 95% des mots qui apparaissent dans les Corpus développés à la main sont aussi dans notre pays, explique la Leturie, et beaucoup d’autres qui ne les recueillent pas.»
En plus de créer des corpus généraux, la Leturie a montré que le web est utile pour créer des corpus dans certains domaines de connaissances, tant pour obtenir des collections de texte intégralement en basque que pour créer des collections de texte bilingues. Dans les deux cas, les corpus de domaine extraits du web ont été assimilables à ceux créés manuellement. Il a travaillé avec le corpus informatique, la physique des particules et le tourisme, entre autres.
La Leturie est partie de méthodes automatiques appliquées dans d'autres langues pour son développement, en tenant compte des caractéristiques de l'euskera, et a cherché des solutions adaptées à ces caractéristiques de l'euskera. « Comme l’euskera a une plus petite masse de texte que les autres langues et est plus complexe pour le traitement automatique, il nous a mis face à des problèmes plus difficiles », a expliqué Leturia, qui a permis de développer des outils qui n’ont pas de « grandes » langues. Selon la Leturie, ils ont eu l'occasion de réaliser des contributions originales et innovantes au domaine de la technologie des langues, qui sont utiles non seulement pour l'euskera, mais aussi pour d'autres langues ayant des besoins et des caractéristiques similaires à l'euskera.