Bota o verso e nós analizarémolo

Hulden, Mans

EHUko IXA taldeko ikertzailea

Agirrezabal Zabaleta, Manex

EHUko IXA taldeko ikertzailea

Arrieta Kortajarena, Bertol

EHUko IXA taldeko ikertzailea

Astigarraga Pagoaga, Aitzol

EHUko IXA taldeko ikertzailea

Cales son as rimas e os pés máis utilizados nos últimos campionatos? Cal é a tendencia dos bertsolaris no exercicio do cárcere e como evolucionou o campionato? Hai cambios significativos no uso das melodías? Cantas palabras vascas hai que entender paira entender un bertso? Aumentou o uso do eúscaro unificado nos últimos Campionatos Xerais de Bertsolaris? Neste artigo tratamos de responder a preguntas como estas, tomando como base o corpus de versos dos últimos sete campionatos da man da Asociación Bertsozale e, en especial, o Centro de Documentación Xenpelar, e tomando como escusa o próximo Campionato Xeral de Euskal Herria.
bota-bertsoa-eta-guk-aztertuko-dugu
Ed. CC/www_wkberri_net

Dentro dos traballos que se realizan no grupo IXA da Facultade de Informática da UPV/EHU, combinando a linguaxe e a informática, nos últimos anos tamén se está traballando no tema do bertsolarismo. Así, recentemente presentamos en colaboración coa Asociación Bertsozale a lousa dixital (con buscadores de rimas e sinónimos, verificadores de medidas, etc.) paira axudar á produción de bertsos (proximamente estará dispoñible tamén paira móbiles). Así mesmo, no ámbito da creación lingüística está a traballarse na creación automática de versos. Aínda que demos os primeiros pasos, antes de dar pasos máis decididos tratamos de analizar os bertsos en detalle, xa que a súa análise exhaustiva pode levar una mellor creación.

Paira a realización destes estudos baseouse no corpus recompilado e clasificado polo Centro de Documentación Xenpelar. O corpus utilizado por nós abarca os bertsos dos principais torneos celebrados entre 1986 e 2009. Este corpus está composto por 6.887 versos clasificados en 2.600 versos. Tal e como se pode observar na figura 1, cada vez son máis os versos --e por tanto os versos - gardados na base de datos.

A análise realizouse a diferentes niveis, tendo en conta as principais características do verso: rimas, medidas, melodías, palabras, categorías morfosintácticas e uso do eúscaro unificado.

Figura . Versos e versos gardados na base de datos utilizada paira o estudo.

Rimas

Paira analizar cales son as rimas e os pés máis utilizados, tomamos en conta medidas que só rimas en liñas pares, xa que con este tipo de versos conseguiamos o 94% do corpus e que a necesidade de conseguir rimas de medidas máis irregulares engadía una complexidade que non merecía a pena paira este estudo.

Como se pode observar na táboa da figura 2, o campionato non sempre é o mesmo paira as rimas máis utilizadas, aínda que a tendencia a utilizar unhas é maior que outras (por exemplo, a rima eBGD aparece na primeira posición).

Figura . Rimas máis utilizadas en cada competición. Nota: A rima eBDG inclúe á irmá/eda/ega/era, considerada como boa segundo a lei de bodegero, segundo a cal as palabras "irmá", "é mellor", "nórrido" e "estilo" riman. Ocorre o mesmo con rimas como o ePTK, o eNM.

Tomando o corpus na súa totalidade (tendo en conta todos os versos dos sete torneos), tamén estudamos cales son as rimas e os pés máis utilizados (datos que se poden ver na figura 3; o número que aparece á esquerda dos pés indica a proporción na que se utilizou ese pé nesa rima, por exemplo, no 13,27% dos casos nos que se utilizou a rima “ela” o pé seleccionado foi "véspera"). Hai que ter en conta que no corpus a maioría dos versos pertencen aos dous últimos torneos, polo que os datos destes dous torneos terán maior peso nestas medidas.

Por outra banda, os tres pés que máis se repiten en todo o corpus e, por tanto, os máis utilizados son as palabras "véspera", "sen" e "mirando".

Medidas

Figura . Rimas máis utilizadas en todos os torneos.

En canto á análise das medidas, analizamos cales son as máis utilizadas no exercicio do cárcere, único exercicio puntuable que se canta libremente.

Como se pode observar na gráfica da figura 4, a tendencia a medidas longas e especiais é cada vez maior, como se espera. Cabe destacar, así mesmo, que a partir do campionato do ano 2001 (segundo datos do corpus) non se cantou no zortziko maior, e que no do ano 2009 apenas se utilizou a décima parte (3%). Con estes datos, parece que nos cárceres do futuro non terán cabida o zortziko maior e o decimal.

Melodías

Figura . Medidas utilizadas no exercicio do cárcere.

Neste estudo só tivéronse en conta os versos que se cantan na melodía libre, quedando fose as melodías utilizadas nas respostas de puntos.

Na figura 5 pódese observar a evolución en porcentaxe do uso de dez melodías frecuentes. Cabe destacar o escaso uso da coñecida melodía "Triste bizi naiz eta", e o notable auxe das melodías "Haizea dator ifarralde" e "Baserrian jaio naiz". (Nota: Non tivemos en conta o campionato do ano 1989 porque case a cuarta parte dos bertsos que aparecen no corpus non teñen a melodía documentada.)

Palabras máis usadas

En canto ás palabras utilizadas paira o bertso, na gráfica da figura 6 móstrase a proporción na que se pode compor o bertso utilizando un número determinado de lemas. Nel pódese observar que os 500 lemas máis utilizados do corpus de versos son suficientes paira formar o 70% dun verso e os 1.000 lemas máis utilizados paira completar o 80% do verso. Dito dunha maneira máis clara, un alumno de eúscaro entendería o 70% dun bertso (sen ter en conta as trabas pola oralidad nin os límites de inteligibilidad da sintaxe) ao coñecer os 500 lemas máis utilizados en leste bertso corpus.

Figura . Evolución do uso de 10 melodías.

Doutra banda, hai que dicir que este corpus de competicións cumpre a lei do Zipf. Desde o punto de vista do procesamiento da lingua, a lei de Zipf establece que si, tomando calquera corpus da lingua natural, a palabra máis representada é X veces, a seguinte palabra máis frecuente aparecerá X /2 veces e a seguinte X /4 veces e a seguinte X /8 veces...

Categorías morfosintácticas

Tamén se analizaron as categorías morfosintácticas das palabras paira saber cales son as máis utilizadas e ver se se produciron cambios significativos ano tras ano.

Figura . Proporción das lemas máis utilizados nos versos.

Como se pode observar na figura 7, os nomes e verbos (incluíndo os verbos principais, os auxiliares e os sintéticos á vez) son os máis utilizados con diferenza. Tamén nos parece importante a evolución do uso dos adxectivos, xa que baixou o campionato por campionato, aínda que a diferenza non é moi significativa.

Uso do eúscaro unificado

Por último, paira coñecer o uso do eúscaro unificado no corpus de versos, analizamos o corpus co lematizador do grupo IXA, atendendo á evolución das palabras que coñece o lematizador.

Figura . Categorías morfosintácticas das palabras usadas nos versos.

Como se pode observar no gráfico 8, o número de termos coñecidos aumentou de campionato en campionato. No campionato de 2005, cun 89%, obsérvase que aínda que en 2009 esta proporción descende lixeiramente, mantense similar. As razóns polas que os lematizadores do grupo IXA non coñecen as palabras poden ser moi diversas, mentres que as nosas estimacións apuntan a que o uso do eúscaro batua é o que máis ocorre (80%). O resto son nomes propios descoñecidos (13%), entroidos (6%) ou erros de transcrición (1%). Segundo estes datos, non podemos asegurar que o aumento das palabras coñecidas débase a un maior uso do eúscaro batua (e non por exemplo a un menor uso do castelán), pero a nosa intuición e una mostra que analizamos a man confirmounos a sensación de que esa é a tendencia.

As medidas dos últimos torneos, na nosa opinión, suxiren dous tipos de previsións, aínda que os datos que temos non son o suficientemente precisos e parécenos que é demasiado pronto paira sacar conclusións: esa tendencia investirase en diante e os bertsolaris volverán utilizar máis a linguaxe dos dialectos; ou o límite superior (90%) no uso do eúscaro unificado seguirá ao redor dese límite. En calquera caso, creemos que o máis difícil é que o uso do eúscaro unificado suba aínda máis nunha actividade oral como o bertsolarismo.

Conclusións

Figura . Proporción de palabras coñecidas polo lematizador do grupo IXA.

A análise estatística dos bertsos dos últimos sete torneos principais permitiunos mostrar algunhas tendencias. Aínda que merecerá a pena facer unha análise máis pausado e exhaustivo destes datos, o primeiro tamén nos deixou algunhas cousas significativas. Na elección da medida e no uso do eúscaro unificado, por exemplo, serviunos paira confirmar que as intuicións anteriores eran certas: cada vez hai maior propensión ás medidas especiais e longas, e mesmo no uso do eúscaro unificado parece que o incremento foi practicamente constante. En canto ás melodías, parece que hai una tendencia a un uso cada vez máis reducido das melodías, pero nestes datos revelóusenos una característica que non nos atrevemos a sacar conclusións respecto diso.

Mantéñense estas tendencias na competición deste ano ou se invisten? E nos seguintes? Que outras interpretacións interesantes pódense facer a partir do corpus de versos? Que consecuencias sacaría de analizar os bertsos que non son de competición? E comparar os de competición cos de competición?

Aínda queda moito por facer neste campo, pero creemos que a importancia de seguir documentando correctamente os bertsos paira realizar unha análise exhaustiva da produción de bertsos é innegable si quérese ver como evolucionan nos próximos anos as tendencias mencionadas neste artigo e outras que merecen ser examinadas dunha maneira máis pausada.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila