Los corpus son muestras de referencia del lenguaje escrito, grandes colecciones de textos y palabras. Y están en los fundamentos de las tecnologías lingüísticas. Los sistemas de traducción automática y las aplicaciones de reconocimiento de voz no existirían sin corpus, ni tampoco los modernos diccionarios actuales.
Dirigido por el grupo de investigación Ixa de la Facultad de Informática de la UPV, el investigador de la unidad de Lengua y Tecnología de Elhuyar Igor Leturia ha acudido a la web para crear corpus en euskera. Cuando se inició el trabajo de investigación, el corpus más grande en euskera contaba con 25 millones de palabras; “otras lenguas superaron los 100 millones de palabras en la década de los 90”, explica Leturia. “Nos pusimos el objetivo de superar esa barrera, cuando empezamos a analizar si la web podía ser una buena fuente para crear corpus en euskera”, ha añadido.
Leturia ha aprovechado la aproximación “como corpus web”, ya que el uso de la web como fuente permite obtener más fácilmente los corpus grandes que manualmente. La extracción de corpus de la web mediante métodos automáticos permite obtener corpus variados, actualizados y grandes de forma mucho más rápida y económica. De hecho, la mayor limitación de los corpus tradicionales es su coste: la recopilación y adaptación de textos en diferentes formatos y lugares requiere una gran mano de obra, de la que se extraen las colecciones de palabras de referencia en la lengua.
A través del trabajo de investigación, Leturia ha demostrado que es posible consultar directamente la web como si fuera un corpus en euskera y, a través de las herramientas desarrolladas, ha creado desde la web un corpus general de 210 millones de palabras (consultable en el Portal de Web-Corpus). “Más del 95% de las palabras que aparecen en los Corpus desarrollados a mano también están en nuestro país —explica Leturia— y muchas otras que no las recogen”.
Además de crear corpus generales, Leturia ha demostrado que la web es útil para crear corpus en determinadas áreas de conocimiento, tanto para obtener colecciones de texto íntegramente en euskera como para crear colecciones de texto bilingües. En ambos casos, los corpus de dominio extraídos de la web han sido asimilables a los creados manualmente. Ha trabajado con corpus de informática, física de partículas y turismo, entre otros.
Leturia ha partido de métodos automáticos aplicados en otras lenguas para su desarrollo, teniendo en cuenta las características del euskera, y ha buscado soluciones adaptadas a esas características del euskera. “Como el euskera tiene una menor masa de texto que otras lenguas y es más complejo para el tratamiento automático, nos ha puesto ante problemas más difíciles”, ha explicado Leturia, que ha permitido desarrollar herramientas que no tienen “grandes” lenguas. Según Leturia, han tenido la oportunidad de realizar aportaciones originales e innovadoras al ámbito de la tecnología de las lenguas, que son útiles no sólo para el euskera, sino también para otras lenguas con necesidades y características similares al euskera.