Primeira versión en Internet do Corpus de Ciencia e Tecnoloxía

Gurrutxaga Hernaiz, Antton

Elhuyar Hizkuntza Zerbitzuak

O 14 de decembro, o Grupo IXA da UPV e a Fundación Elhuyar presentarán a versión en internet do Corpus de Ciencia e Tecnoloxía. É o primeiro corpus especial ou especializado en eúscaro. Trátase dunha colección estruturada e etiquetada de textos en eúscaro no ámbito da ciencia e a tecnoloxía, cuxo obxectivo principal é servir de recurso paira a investigación do uso do eúscaro nestes ámbitos.
Primeira versión en Internet do Corpus de Ciencia e Tecnoloxía
01/12/2006 | Gurrutxaga Hernaiz, Antton | Elhuyar Hizkuntza Zerbitzuak
Presentación do Corpus de Ciencia e Tecnoloxía no congreso LREC sobre recursos lingüísticos
Xénova, 2006
(Foto: A. Gurrutxaga)

Paira alimentar o corpus tivéronse en conta as obras de ciencia e tecnoloxía publicadas entre 1990 e 2002. O corpus está clasificado por campo (área de coñecemento) e xénero.

O corpus está etiquetaxe, tanto en canto á estrutura e formato do texto como a nivel lingüístico. A etiquetaxe lingüística realizouse mediante tecnoloxía avanzada de procesamiento automático do eúscaro (etiquetador Eustagger do grupo IXA). A lema e a categoría/subcategoría de cada palabra do texto están etiquetaxes. Nesta versión do corpus hai 8 millóns de palabras, das que 1,6 millóns revisáronse, desambiguado e corrixido manualmente. O corpus está etiquetaxe en XML e seguiuse o estándar TEI.

Organizouse una potente interfaz de consulta do corpus, na que o usuario poderá realizar procuras sinxelas e complexas de todo tipo, utilizando paira iso un amplo conxunto de parámetros: lema, forma de texto, categoría, campo, xénero, sección de corpus (manual corrixido/corpus completo...). Os resultados poden ser de dous tipos. Por unha banda, os contextos curtos (KWIC) e os contextos estendidos do obxecto de estudo, e por outro, a información cuantitativa, expresada en táboas e gráficos (frecuencias, publicacións, distribución por ámbitos ou xéneros, etc.).

O corpus estará dispoñible en www.ztcorpusa.net. Ademais, a partir de 2007 estará dispoñible entre os recursos da OCDE paira a súa explotación comercial mediante licenza.

Os textos introducidos nesta primeira versión do corpus foron recollidos en formato dixital por diferentes provedores grazas aos acordos asinados con eles. A todos tamén noso máis sincero agradecemento.

O proxecto Corpus de Ciencia e Tecnoloxía comezou a desenvolverse dentro do proxecto de investigación estratéxica Hizking21. O proxecto Hizking21 recibiu as seguintes axudas: Programa Etortek do Departamento de Industria do Goberno Vasco (2002-2004) e Programa Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea da Deputación Foral de Gipuzkoa (2004). Doutra banda, o Corpus de Ciencia e Tecnoloxía contou coa colaboración do Departamento de Cultura do Goberno Vasco no programa Euskara e Novas Tecnoloxías 2005.

Gurrutxaga Hernaiz, Antton
Servizos
226
2006
Descrición
040
Noticias de Elhuyar; Enpresa
Noticias de Elhuyar
Servizos
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila