CorpEus: Combinant internet, corpus et euskera

Kortabitarte Egiguren, Irati

Elhuyar Zientzia

Internet est une grande source d'information. Peu le mettent en doute. Actuellement, en plus de la recherche d'informations, il est de plus en plus utilisé pour des consultations linguistiques, corpus, etc. Ainsi, Internet devient progressivement une bonne source de ressources linguistiques et de corpus. Un exemple en est CorpEus, un outil qui permet d'utiliser Internet comme un corpus géant en basque.
CorpEus: Combinant internet, corpus et euskera
01/07/2007 Kortabitarte Egiguren, Irati Elhuyar Zientzia Komunikazioa
Les résultats du système CorpEus ont cet aspect. Résultat de la recherche correspondant au mot anorexie dans l'exemple.

Aujourd'hui, toutes les langues ont besoin de corpus. Les corpus sont des collections de textes étiquetées au format électronique et linguistique – l'étiquetage linguistique signifie que chaque mot reçoit sa devise, catégorie, etc. – et sont utilisés dans la recherche linguistique et le développement de technologies linguistiques. Ce sont des ressources très importantes pour le développement de technologies linguistiques, l'élaboration de dictionnaires, etc. L'élaboration du corpus est un travail coûteux, laborieux et difficile à maintenir toujours à jour. Par conséquent, les corpus en basque sont rares et petits par rapport aux autres langues.

Via internet

Mais il y a Internet ou la toile d'araignée, une énorme collection de textes, à la portée de tous, beaucoup plus de texte que tout autre corpus en basque. C'est aussi un corpus, bien qu'il ne soit pas étiqueté linguistiquement. Il serait bien de pouvoir le consulter ou l'exploiter comme corpus. C'est ce que fait CorpEus.

Il existe déjà sur le réseau des outils tels que WebConc ou WebCorp, mais il y a aussi d'autres outils et chercheurs d'Internet qui ont deux problèmes avec le basque: d'une part, ils ne peuvent rechercher qu'une forme concrète et non toutes les formes d'un mot ou d'une devise à la fois - par exemple, nous sommes intéressés à rechercher la terre, la terre, la terre, etc.-, et d'autre part, si la forme en euskera n'un logiciel n'exemple

Recherche du mot banner en corpus CorpEus et WebCorp. CorpEus affiche uniquement les résultats en basque.

CorpEus est né pour dépasser ces limites. Cet outil, développé par le groupe de R & D de la Fondation Elhuyar, avec la collaboration du Groupe IXA de la Faculté d'Informatique de l'UPV/EHU, permet d'utiliser Internet comme corpustzat en euskera. Et c'est qu'Internet est un corpus géant, beaucoup plus grand que n'importe quel corpus en basque. En outre, il est toujours mis à jour et en ajoutant du contenu, donc vous pouvez consulter les derniers mots.

CorpEus utilise les APIs des navigateurs Internet (il peut se déplacer avec Google, Yahoo ou Microsoft) pour savoir sur quelle page un mot apparaît --les fonctions offertes par le service APIs (Application Programming Interface) pour l'utiliser depuis un autre programme-. Il montre ensuite, dans son contexte, toutes les manifestations du mot contenu dans ces pages. Il montre également le nombre d'apparitions.

Vous pouvez trier les résultats en fonction de différents facteurs, montrant l'analyse linguistique des résultats. Il fonctionne avec différents types de documents (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS). En outre, la recherche se fait en résolvant les deux problèmes de l'euskera: il cherche selon la devise et n'offre que des pages en euskera, comme nous l'a expliqué Igor Leturia, responsable du projet CorpEus et chercheur du groupe de R & D de la Fondation Elhuyar.

Ils utilisent un outil développé par le Groupe IXA de l'Université du Pays Basque/Euskal Herriko Unibertsitatea pour montrer une forme concrète et toutes les possibilités découlant de leur devise. Toutes les formes sont ainsi demandées à l'API en utilisant l'opérateur OR. Par exemple, si l'utilisateur demande le mot maison, le moteur de recherche sera mis: etxe OR etxea OR a OR... Le premier problème a été résolu. Bien sûr, les moteurs de recherche ne prennent pas autant d'options qu'ils le souhaitent, de sorte que tous les déclinaisons ne sont pas envoyés, mais assez pour obtenir des résultats significatifs.

Internet est aujourd'hui une grande source d'information qui, avec les bons outils de recherche, peut également être utilisé comme un corpus géant.
Fichier de fichier

Résultats en euskera

Comme mentionné précédemment, il n'existe aucun moteur de recherche qui ne reflète que les résultats en basque. C'est un problème si le mot que nous voulons trouver est dit égal dans d'autres langues. C'est ce qui se produit avec des mots techniques comme l'anorexie, le sulfureux et le byte, avec des mots courts -- chat et le lait, par exemple - et avec des noms propres -- Fiji et Newton, entre autres. En fait, les recherches de mots techniques sont très fréquentes et utiles dans les corpus en basque, car la terminologie n'est pas suffisamment normalisée en basque.

Pour obtenir uniquement les résultats en basque, CorpEus utilise des filtres. Les chercheurs du groupe de R & D de la Fondation Elhuyar ont accroché comme filtres les mots les plus utilisés en basque, tous liés à une AND. Pour connaître les mots les plus utilisés, un corpus a été utilisé.

Malheureusement, les mots les plus utilisés en basque ( et, il est, non, ) sont courts, fréquemment utilisés dans d'autres langues et, parfois, peuvent être abréviations et acronymes. Par conséquent, il n'y a pas de mots magiques, c'est-à-dire des mots qui apparaissent uniquement dans des textes en basque et qui peuvent être utilisés comme filtre. C'est et c'est le mot le plus utilisé en basque. Mais l'ETA est aussi un acronyme fréquemment utilisé dans les médias dans de nombreuses langues. Un autre des mots les plus utilisés est le verbe, mais en russe oui.

Les corpus sont des collections de textes étiquetés électroniquement et linguistiquement.
Fichier de fichier

Par conséquent, combien de ces mots doivent être utilisés comme filtre pour effectuer la recherche uniquement sur les pages en basque ? Selon Igor Leturia, « plus vous utilisez de mots, plus la recherche sera concrète et, par conséquent, moins de résultats que l'euskera. Cependant, il ne montrera pas non plus certains résultats en basque, car certains ou certains de ces mots n'apparaissent pas en eux ».

Quelques limites

CorpEus complète les corpus jusqu'à présent. Cependant, en plus des avantages, il a quelques inconvénients. D'une part, comme déjà mentionné ci-dessus, quand il s'agit d'Internet non étiqueté linguistiquement, il aura toujours une certaine incertitude avec des mots avec plus d'un slogan. Dans la recherche du mot pelotari, par exemple, car il est un datif du mot balle et une personne qui joue au ballon. Un autre inconvénient est que, dans une large mesure, il n'a pas été peigné - en particulier les blogs, forums, contenu personnel, etc. -, bien qu'il puisse être considéré comme un avantage (par exemple, parce qu'il donne un modèle proche du langage oral), il est également un inconvénient, car il peut être de pire qualité et défectueux.

D'autre part, vous ne verrez jamais tout ce qu'il ya, car normalement les moteurs de recherche ont une limite de mille pages, de sorte que vous ne pouvez afficher les résultats de ces pages. Enfin, CorpEus est dépendant des moteurs de recherche : d'une part, les résultats de l'outil dépendent de l'ordre de ses résultats et, d'autre part, des changements qu'ils font dans les API et des limitations qu'ils mettent aux API.

Membres du groupe de R & D de la Fondation Elhuyar: pour la gauche, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi et Igor Leturia.
R. Carton

En tout cas, CorpEus a été la première tentative qui a uni internet, corpus et euskera. Ce ne sera certainement pas la dernière. En fait, dans d'autres langues, le corpus de plus en plus important est nécessaire pour les technologies linguistiques, de sorte que la tendance à utiliser l'Internet est de plus en plus importante.

Site web du projet CorpEus: http://www.corpeus.org

Kortabitarte Egiguren, Irati
Services
233 233
2007 2007 2007 2007
Autres
035 035
Internet; Technologie
Article 5 Article 1 Article 1 Article 1
Autres
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila