CorpEus: Combinando internet, corpus e eúscaro

Kortabitarte Egiguren, Irati

Elhuyar Zientzia

Internet é una gran fonte de información. Poucos o pon en dúbida. Na actualidade, ademais da procura de información, úsase cada vez máis paira consultas lingüísticas, corpus, etc. Deste xeito, Internet está a converterse progresivamente nunha boa fonte de recursos lingüísticos e corpus. Un exemplo diso é CorpEus, una ferramenta que permite utilizar Internet como un corpus xigante en eúscaro.
CorpEus: Combinando internet, corpus e eúscaro
01/07/2007 | Kortabitarte Egiguren, Irati | Elhuyar Zientzia Komunikazioa
Os resultados do sistema CorpEus teñen este aspecto. Resultado da procura correspondente á palabra anorexia no exemplo.

Hoxe en día, todas as linguas necesitan corpus. Os corpus son coleccións de textos etiquetaxes en formato electrónico e lingüisticamente --a etiquetaxe lingüisticamente significa que a cada palabra outórgaselle a súa correspondente lema, categoría, etc.- e utilízanse na investigación lingüística e no desenvolvemento de tecnoloxías lingüísticas. Son recursos moi importantes paira o desenvolvemento de tecnoloxías lingüísticas, elaboración de dicionarios, etc. A elaboración de corpus é un traballo caro, laborioso e difícil de manter sempre actualizado. Por iso, os corpus en eúscaro son escasos e pequenos en comparación con outros idiomas.

A través de internet

Pero aí está Internet ou a telaraña, una enorme colección de textos, ao alcance de todos, moito máis texto que calquera outro corpus en eúscaro. Tamén é un corpus, aínda que non está etiquetaxe lingüisticamente. Estaría ben poder consultalo ou explotalo como corpus. É o que fai CorpEus.

Xa existen na rede ferramentas como WebConc ou WebCorp, pero tamén hai outras ferramentas e buscadores de Internet que teñen dous problemas co eúscaro: por unha banda, só poden buscar una forma concreta e non todas as formas dunha palabra ou lema á vez --por exemplo, interésanos buscar terra, terra, terra, terra, etc.-, e doutra banda, si a forma en eúscaro non é demasiado sulfúrica, e poden dar resultados nun software, por exemplo.

Procura da palabra banner en corpus CorpEus e WebCorp. CorpEus só mostra os resultados en eúscaro.

CorpEus nace paira superar estes límites. Esta ferramenta, desenvolvida polo grupo de I+D da Fundación Elhuyar, coa colaboración do Grupo IXA da Facultade de Informática da UPV/EHU, permite utilizar Internet como corpustzat en eúscaro. E é que Internet é un corpus xigante, moito máis grande que calquera corpus en eúscaro. Ademais sempre se está actualizando e engadindo contido, polo que se poden consultar as palabras máis recentes.

CorpEus utiliza as APIs dos buscadores de Internet (pode moverse con Google, Yahoo ou Microsoft) paira saber en que páxina aparece una palabra --as funcións que ofrece o servizo APIs (Application Programming Interface) paira utilizala desde outro programa-. A continuación, mostra, no seu contexto, todas as manifestacións da palabra contida en devanditas páxinas. Tamén mostra o número de aparicións.

Pode ordenar os resultados en función de diversos factores, mostrando a análise lingüística dos resultados. Funciona con varios tipos de documentos (HTML, XML, RSS, RDF, TXT, DBF, DOC, RTF, PDF, PPT, PPS, XLS). Ademais, a procura realízase solucionando os dous problemas do eúscaro: busca segundo a lema e só ofrece páxinas en eúscaro, segundo explicounos Igor Leturia, responsable do proxecto CorpEus e investigador do grupo de I+D da Fundación Elhuyar.

Utilizan una ferramenta desenvolvida polo Grupo IXA da Universidade do País Vasco/Euskal Herriko Unibertsitatea paira mostrar una forma concreta e todas as posibilidades que se derivan da súa lema. Desta forma solicítanse todas as formas ao API utilizando o operador OR. Por exemplo, si o usuario pregunta pola palabra casa, ao buscador poráselle: etxe OR etxea OR a OR... Solucionouse o primeiro problema. Por suposto, os buscadores non admiten tantas opcións como desexen, polo que non se envían todas as declinaciones, pero si o suficiente paira obter resultados significativos.

Internet é hoxe una gran fonte de información que, coas ferramentas de procura adecuadas, pódese utilizar tamén como un corpus xigante.
De arquivo

Resultados en eúscaro

Como xa se mencionou anteriormente, non existe ningún buscador que só reflicta os resultados en eúscaro. Isto é un problema se a palabra que queremos atopar dise igual noutras linguas. É o que ocorre con palabras técnicas como a anorexia, o sulfuroso e o byte, con palabras curtas -- gato e o leite, por exemplo - e con nomes propios -- Fiji e Newton, entre outros. De feito, as procuras de palabras técnicas son moi habituais e útiles nos corpus en eúscaro, xa que a terminología non está suficientemente normalizada en eúscaro.

Paira obter unicamente os resultados en eúscaro, CorpEus utiliza filtros. Os investigadores do grupo de I+D da Fundación Elhuyar colgaron como filtros as palabras máis utilizadas en eúscaro, todas elas relacionadas cunha AND. Paira coñecer as palabras máis utilizadas utilizouse un corpus.

Desgraciadamente, as palabras máis utilizadas en eúscaro ( e, é, non, ) son curtas, utilízanse con frecuencia noutras linguas e, en ocasións, poden ser abreviaturas e acrónimos. Por tanto, non hai palabras máxicas, é dicir, palabras que só aparezan en textos en eúscaro e que poidan utilizarse como filtro. É e é a palabra máis utilizada en eúscaro. Pero ETA é tamén un acrónimo que se utiliza frecuentemente nos medios de comunicación en moitas linguas. Outra das palabras máis utilizadas é o verbo, pero en ruso si.

Os corpus son coleccións de textos etiquetaxes electrónicamente e lingüisticamente.
De arquivo

Por tanto, cantas destas palabras hai que utilizar como filtro paira realizar a procura unicamente en páxinas en eúscaro? Segundo Igor Leturia, "cantas máis palabras uses, máis concreta será a procura e, por tanto, menos resultados que non sexan en eúscaro. No entanto, tampouco mostrará algúns resultados en eúscaro, xa que algunha ou algunhas destas palabras non aparecen nelas".

Algúns límites

CorpEus complementa aos corpus até agora. Con todo, ademais de vantaxes, ten algunhas desvantaxes. Por unha banda, como xa se mencionou anteriormente, ao tratarse de Internet non etiquetada lingüisticamente, sempre terá certa incerteza con palabras con máis dun lema. Na procura da palabra pelotari, por exemplo, xa que é un dativo da palabra pelota e una persoa que xoga a pelota. Outro inconveniente é que, en gran medida, non se peiteou -sobre todo blogs, foros, contido persoal, etc.-, aínda que pode verse como una vantaxe (por exemplo, porque se dá un modelo próximo á linguaxe oral), tamén é una desvantaxe, xa que pode ser de peor calidade e defectuosa.

Doutra banda, nunca se poderá ver todo o que hai, xa que normalmente os buscadores teñen un límite de mil páxinas, polo que só se poden mostrar os resultados destas páxinas. E por último, CorpEus é dependente dos buscadores: por unha banda, os resultados da ferramenta dependen da orde dos seus resultados e, por outro, dos cambios que realizan nos APIs e das limitacións que pon aos APIs.

Membros do grupo de I + D da Fundación Elhuyar: pola esquerda, Antton Gurrutxaga, Nerea Areta, Xabier Saralegi e Igor Leturia.
R. Carton

En calquera caso, CorpEus foi o primeiro intento que uniu internet, corpus e eúscaro. Seguramente non será a última. De feito, noutras linguas tamén se necesitan corpus cada vez máis grandes paira as tecnoloxías lingüísticas, paira o que a tendencia a utilizar Internet está a crecer de forma notable.

Páxina web do proxecto CorpEus: http://www.corpeus.org

Kortabitarte Egiguren, Irati
Servizos
233
2007
Outros
035
Internet; Tecnoloxía
Artigo
Outros
Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila