Per a alimentar el corpus s'han tingut en compte les obres de ciència i tecnologia publicades entre 1990 i 2002. El corpus està classificat per camp (àrea de coneixement) i gènere.
El corpus està etiquetat, tant quant a l'estructura i format del text com a nivell lingüístic. L'etiquetatge lingüístic s'ha realitzat mitjançant tecnologia avançada de processament automàtic del basc (etiquetador Eustagger del grup IXA). El lema i la categoria/subcategoria de cada paraula del text estan etiquetats. En aquesta versió del corpus hi ha 8 milions de paraules, de les quals 1,6 milions s'han revisat, desambiguat i corregit manualment. El corpus està etiquetat en XML i s'ha seguit l'estàndard TEI.
S'ha organitzat una potent interfície de consulta del corpus, en la qual l'usuari podrà realitzar cerques senzilles i complexes de tota mena, utilitzant per a això un ampli conjunt de paràmetres: lema, forma de text, categoria, camp, gènere, secció de corpus (manual corregit/corpus complet...). Els resultats poden ser de dos tipus. D'una banda, els contextos curts (KWIC) i els contextos estesos de l'objecte d'estudi, i per un altre, la informació quantitativa, expressada en taules i gràfics (freqüències, publicacions, distribució per àmbits o gèneres, etc.).
El corpus estarà disponible en www.ztcorpusa.net. A més, a partir de 2007 estarà disponible entre els recursos de l'OCDE per a la seva explotació comercial mitjançant llicència.
Els textos introduïts en aquesta primera versió del corpus han estat recollits en format digital per diferents proveïdors gràcies als acords signats amb ells. A tots també nostre més sincer agraïment.
El projecte Corpus de Ciència i Tecnologia va començar a desenvolupar-se dins del projecte de recerca estratègica Hizking21. El projecte Hizking21 ha rebut les següents ajudes: Programa Etortek del Departament d'Indústria del Govern Basc (2002-2004) i Programa Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea de la Diputació Foral de Guipúscoa (2004). D'altra banda, el Corpus de Ciència i Tecnologia ha comptat amb la col·laboració del Departament de Cultura del Govern Basc en el programa Euskara i Noves Tecnologies 2005.