Primera versió en Internet del Corpus de Ciència i Tecnologia

Gurrutxaga Hernaiz, Antton

Elhuyar Hizkuntza Zerbitzuak

El 14 de desembre, el Grup IXA de la UPV i la Fundació Elhuyar presentaran la versió en internet del Corpus de Ciència i Tecnologia. És el primer corpus especial o especialitzat en basc. Es tracta d'una col·lecció estructurada i etiquetada de textos en basc en l'àmbit de la ciència i la tecnologia, l'objectiu principal de la qual és servir de recurs per a la recerca de l'ús del basc en aquests àmbits.
Primera versió en Internet del Corpus de Ciència i Tecnologia
01/12/2006 | Gurrutxaga Hernaiz, Antton | Elhuyar Hizkuntza Zerbitzuak
Presentació del Corpus de Ciència i Tecnologia en el congrés LREC sobre recursos lingüístics
Gènova, 2006
(Foto: A. Gurrutxaga)

Per a alimentar el corpus s'han tingut en compte les obres de ciència i tecnologia publicades entre 1990 i 2002. El corpus està classificat per camp (àrea de coneixement) i gènere.

El corpus està etiquetat, tant quant a l'estructura i format del text com a nivell lingüístic. L'etiquetatge lingüístic s'ha realitzat mitjançant tecnologia avançada de processament automàtic del basc (etiquetador Eustagger del grup IXA). El lema i la categoria/subcategoria de cada paraula del text estan etiquetats. En aquesta versió del corpus hi ha 8 milions de paraules, de les quals 1,6 milions s'han revisat, desambiguat i corregit manualment. El corpus està etiquetat en XML i s'ha seguit l'estàndard TEI.

S'ha organitzat una potent interfície de consulta del corpus, en la qual l'usuari podrà realitzar cerques senzilles i complexes de tota mena, utilitzant per a això un ampli conjunt de paràmetres: lema, forma de text, categoria, camp, gènere, secció de corpus (manual corregit/corpus complet...). Els resultats poden ser de dos tipus. D'una banda, els contextos curts (KWIC) i els contextos estesos de l'objecte d'estudi, i per un altre, la informació quantitativa, expressada en taules i gràfics (freqüències, publicacions, distribució per àmbits o gèneres, etc.).

El corpus estarà disponible en www.ztcorpusa.net. A més, a partir de 2007 estarà disponible entre els recursos de l'OCDE per a la seva explotació comercial mitjançant llicència.

Els textos introduïts en aquesta primera versió del corpus han estat recollits en format digital per diferents proveïdors gràcies als acords signats amb ells. A tots també nostre més sincer agraïment.

El projecte Corpus de Ciència i Tecnologia va començar a desenvolupar-se dins del projecte de recerca estratègica Hizking21. El projecte Hizking21 ha rebut les següents ajudes: Programa Etortek del Departament d'Indústria del Govern Basc (2002-2004) i Programa Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea de la Diputació Foral de Guipúscoa (2004). D'altra banda, el Corpus de Ciència i Tecnologia ha comptat amb la col·laboració del Departament de Cultura del Govern Basc en el programa Euskara i Noves Tecnologies 2005.

Gurrutxaga Hernaiz, Antton
Serveis
226
2006
Descripció
040
Notícies d'Elhuyar; Enpresa
Notícies d'Elhuyar
Serveis
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila