Para alimentar el corpus se han tenido en cuenta las obras de ciencia y tecnología publicadas entre 1990 y 2002. El corpus está clasificado por campo (área de conocimiento) y género.
El corpus está etiquetado, tanto en cuanto a la estructura y formato del texto como a nivel lingüístico. El etiquetado lingüístico se ha realizado mediante tecnología avanzada de procesamiento automático del euskera (etiquetador Eustagger del grupo IXA). El lema y la categoría/subcategoría de cada palabra del texto están etiquetados. En esta versión del corpus hay 8 millones de palabras, de las que 1,6 millones se han revisado, desambiguado y corregido manualmente. El corpus está etiquetado en XML y se ha seguido el estándar TEI.
Se ha organizado una potente interfaz de consulta del corpus, en la que el usuario podrá realizar búsquedas sencillas y complejas de todo tipo, utilizando para ello un amplio conjunto de parámetros: lema, forma de texto, categoría, campo, género, sección de corpus (manual corregido/corpus completo...). Los resultados pueden ser de dos tipos. Por un lado, los contextos cortos (KWIC) y los contextos extendidos del objeto de estudio, y por otro, la información cuantitativa, expresada en tablas y gráficos (frecuencias, publicaciones, distribución por ámbitos o géneros, etc.).
El corpus estará disponible en www.ztcorpusa.net. Además, a partir de 2007 estará disponible entre los recursos de la OCDE para su explotación comercial mediante licencia.
Los textos introducidos en esta primera versión del corpus han sido recogidos en formato digital por diferentes proveedores gracias a los acuerdos firmados con ellos. A todos también nuestro más sincero agradecimiento.
El proyecto Corpus de Ciencia y Tecnología comenzó a desarrollarse dentro del proyecto de investigación estratégica Hizking21. El proyecto Hizking21 ha recibido las siguientes ayudas: Programa Etortek del Departamento de Industria del Gobierno Vasco (2002-2004) y Programa Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea de la Diputación Foral de Gipuzkoa (2004). Por otro lado, el Corpus de Ciencia y Tecnología ha contado con la colaboración del Departamento de Cultura del Gobierno Vasco en el programa Euskara y Nuevas Tecnologías 2005.