Première version sur Internet du Corpus de Science et Technologie

Gurrutxaga Hernaiz, Antton

Elhuyar Hizkuntza Zerbitzuak

Le 14 décembre, le Groupe IXA de l'UPV et la Fondation Elhuyar présenteront la version Internet du Corpus de Science et Technologie. C'est le premier corpus spécial ou spécialisé en basque. Il s'agit d'une collection structurée et étiquetée de textes en basque dans le domaine de la science et de la technologie, dont l'objectif principal est de servir de ressource pour la recherche de l'usage de l'euskera dans ces domaines.
Première version sur Internet du Corpus de Science et Technologie
01/12/2006 Gurrutxaga Hernaiz, Antton, Elhuyar Hizkuntza Zerbitzuak
Présentation du Corpus de Science et Technologie au congrès LREC sur les ressources linguistiques
Gênes, 2006
(Photo: A. Gurrutxaga)

Pour alimenter le corpus, on a tenu compte des œuvres de science et de technologie publiées entre 1990 et 2002. Le corpus est classé par domaine (domaine de la connaissance) et par genre.

Le corpus est étiqueté, tant en ce qui concerne la structure et le format du texte qu'au niveau linguistique. L'étiquetage linguistique a été réalisé grâce à la technologie avancée de traitement automatique de l'euskera (étiqueteur Eustagger du groupe IXA). Le slogan et la catégorie/sous-catégorie de chaque mot du texte sont marqués. Dans cette version du corpus, il y a 8 millions de mots, dont 1,6 millions ont été révisés, dérangés et corrigés manuellement. Le corpus est étiqueté en XML et la norme TEI a été suivie.

Une puissante interface de requête du corpus a été organisée, dans laquelle l'utilisateur pourra effectuer des recherches simples et complexes de toutes sortes, en utilisant pour cela un vaste ensemble de paramètres: devise, forme de texte, catégorie, champ, genre, section de corpus (manuel corrigé/corpus complet...). Les résultats peuvent être de deux types. D'une part, les contextes courts (KWIC) et les contextes étendus de l'objet d'étude, et d'autre part, l'information quantitative, exprimée en tableaux et graphiques (fréquences, publications, distribution par domaines ou genres, etc. ).

Le corpus sera disponible sur www.ztcorpusa.net. En outre, à partir de 2007, il sera disponible parmi les ressources de l'OCDE pour son exploitation commerciale par licence.

Les textes introduits dans cette première version du corpus ont été recueillis en format numérique par différents fournisseurs grâce aux accords signés avec eux. A tous également nos sincères remerciements.

Le projet Corpus de science et technologie a commencé à se développer dans le projet de recherche stratégique Hizking21. Le projet Hizking21 a reçu les aides suivantes: Programme Etortek du Département d'Industrie du Gouvernement Basque (2002-2004) et Programme Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea de la Députation Forale de Gipuzkoa (2004). D'autre part, le Corpus de Science et Technologie a compté avec la collaboration du Département de Culture du Gouvernement Basque dans le programme Euskara et Nouvelles Technologies 2005.

Gurrutxaga Hernaiz, Antton
Services
226 226
2006 2006 2006 2006
Description du produit Description
040 040
Nouvelles de Elhuyar; Barrage
Nouvelles de Elhuyar
Services
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila