Orai, o centro de investigación de intelixencia artificial de Elhuyar, desenvolveu o modelo neuronal libre máis recente para sistemas de intelixencia artificial que esixen a comprensión e creación do eúscaro escrito. Bautizado co nome de eus-8B, utilizarase para o desenvolvemento de chatbots, tradutores automáticos, correctores gramaticais, buscadores, sistemas de creación de contidos...
Segundo confirmaron os investigadores de Oraiko, este é o modelo máis avanzado para o eúscaro no ámbito do modelo fundacional lixeiro, con menos de 10 mil millóns de parámetros. Ademais, co obxectivo de facilitar o desenvolvemento e a investigación das tecnoloxías en eúscaro tanto no ámbito académico como no industrial, púxose a disposición da cidadanía de maneira libre o acceso á información sobre o desenvolvemento e a avaliación das tecnoloxías en eúscaro.
Segundo precisaron, para o desenvolvemento da Variante eus-8B, utilizouse como modelo basee o modelo máis recente de Meta 3.1-8B (é o modelo de código aberto de 8 mil millóns de parámetros). Este modelo lingüístico neuronal creouse a través de algoritmos de aprendizaxe automática utilizando unha gran colección de textos (15 billóns de palabras), a maioría en inglés, e é moi efectivo neste idioma (e noutras linguaxes principais) para automatizar tarefas que requiren habilidades lingüísticas (tradución automática, resumo automático, xeración de contidos, sistemas de diálogo…). Con todo, o rendemento en eúscaro é moi limitado.
Como non hai unha colección de textos en eúscaro xigante e os requisitos computacionales para adestrar desde cero un modelo semellante para o eúscaro son moi grandes, decidiron partir da Base 3.1-8B, xa que ten unha base sólida. O obxectivo foi transferir ao eúscaro as competencias adquiridas de millóns de textos en inglés mediante algoritmos de aprendizaxe automática e a utilización dunha colección de textos en eúscaro.
Para iso, utilizaron o corpus Zelai recolleito hai uns meses por Orai, o maior corpus en eúscaro con licenza libre e de alta calidade. Para mellorar a transferencia das competencias entre o inglés e o eúscaro, os textos do Gran Campo combináronse con textos en inglés. Desta maneira, os modelos conseguiron manter o coñecemento de inglés e, ao mesmo tempo, mellorar a comprensión do eúscaro, reutilizando eficazmente o apreso para o inglés no adestramento orixinal”. O adestramento do modelo realizouse utilizando o sistema Hyperion do centro de supercomputación do Donostia International Physics Center (DIPC).
O modelo foi avaliado nun banco de probas amplo que inclúe 11 tarefas en eúscaro, nas que utilizaron as competencias lingüísticas formais (uso correcto da gramática e do dicionario) e funcionais (capacidade de comprensión e uso da lingua en contextos reais): exames escolares, resolución de problemas, cuestionarios sobre diversos temas, análises de opinión, etc.
Os resultados da avaliación demostran que o modelo de xestión en eúscaro máis livián dispoñible na actualidade é o que proporciona os mellores resultados (menos de 10 mil millóns de parámetros), constituíndo así un valioso recurso para o desenvolvemento de sistemas de intelixencia artificial que requiran as competencias lingüísticas en eúscaro. Nalgunhas tarefas dá resultados máis competitivos que os modelos moito máis grandes. En calquera caso, aínda que os resultados están cada vez máis preto dos de inglés, o rendemento en eúscaro segue sendo moito menor que o de inglés.