Nas redes sociais, os usuarios achegan información sobre entidades, empresas ou temas concretos. Os sistemas de extracción de información permiten ás empresas coñecer, por exemplo, o prestixio que teñen na sociedade; ou ás institucións públicas, coñecer a actitude da sociedade ante as súas políticas.
Xa existían sistemas de elaboración en varios idiomas, pero non en eúscaro. E a investigadora lembrou que cerca do 15% dos tweets escritos en Euskal Herria son en eúscaro (un total de 2,5-2,8 millóns de tweets ao ano). O resto son principalmente en castelán e francés, e algúns (en menor medida) en inglés. Por tanto, San Vicente desenvolveu nestas catro linguas os recursos que conforman o sistema paira analizar o sentimento das mensaxes nas redes sociais.
“O primeiro paso foi crear léxicos de polaridad”, explicou San Vicente, é dicir, crear listas de palabras que por si mesmas teñen un sentimento positivo ou negativo: malo, malo e bo… “Ao facelo hai que ter en conta o contexto”, advertiu o investigador. De feito, segundo o contexto, una mesma palabra pode ter distinta polaridad: “Baixar as vendas é malo, mentres que baixar o paro é bo. Por tanto, a polaridad dos descensos varía segundo o contexto”. Ademais hai que ter en conta as negativas (non, pero si…) e a ironía.
A escritura informal propia de Twitter tamén xera problemas. “En Twitter moitos realizan una especie de transcrición da linguaxe oral ou mesturan dúas linguas nun mesmo sitio. Ás veces, paira dar énfase a unha palabra, repítese a última vocal e utilízanse os emoticonos paira expresar sentimentos”. Ademais, existen partículas reforzantes e reductoras, moi poucas… que foron consideradas na elaboración do léxico.
O seguinte paso foi a integración do léxico nos sistemas de aprendizaxe automática. Paira adestrar este tipo de sistemas utilizáronse miles de exemplos, clasificados manualmente: positivo, negativo ou neutro. “Con eles ensinamos ao sistema un modelo matemático, de maneira que cando veña un novo exemplo, dirá si é positivo, negativo ou neutro en base aos anteriores”.
“Conseguimos que a taxa de invención da clasificación en eúscaro sexa similar á doutras linguas”, sinalou San Vicente. Na actualidade, a taxa de invención sitúase en torno ao 75%, pero os membros de Elhuyar están a traballar paira mellorar o resultado baseándose en redes neuronais. Así mesmo, aínda que nun principio o sistema só extraía as opinións dos textos, agora é capaz de analizar vídeos e audios e de detectar as opinións presentes neles.
Xa o utilizaron en casos reais. Por exemplo, a través de Behagunea realizouse o seguimento dos proxectos da Capitalidade Donostia 2016. Xunto á noticia, seguiuse a campaña electoral paira o Parlamento Vasco 2016 e en 2018, co Instituto de Criminología da UPV, analizouse a actitude das vítimas do terrorismo nas redes sociais.
O traballo de investigación realizouse en colaboración co grupo IXA e todos os resultados están dispoñibles na web de Elhuyar de Tecnoloxías Lingüísticas.