O Centro de Palabras presentou un gran modelo lingüístico para o eúscaro.Chamouno Latxa, está baseado nos modelos Chama de Meta e recolle modelos de entre 7 e 70 mil millóns de parámetros. Os LLM actuais teñen un rendemento sorprendente en linguas con moitos recursos, como os de ChatGPT ou Bard para inglés. Con todo, no caso do eúscaro e doutras linguas minoritarias o seu rendemento é moito menor. A Latxa desenvolveuse para reducir esta brecha.
En principio son tres lotes básicos, previamente formados pero non refinados en instrucións ou preferencias dirixidas ao usuario. Estes modelos non son, por tanto, de uso directo dos públicos xerais, pero son fundamentais para a construción de ferramentas útiles que utilicen a tecnoloxía lingüística para o eúscaro. Para o seu desenvolvemento utilizaron servidores tipo GPU e adestraron os últimos modelos no supercomputador Leonardo de CINECA.
Doutra banda, en canto aos textos, utilizaron EusCrawl. Este corpus, extraído de 33 webs de contido de calidade, ofrece mellor calidade que outras técnicas de composición de corpus a través de Internet. En total teñen 1,72 millóns de documentos e 288 millóns de palabras.
Para avaliar a calidade dos modelos miden a capacidade dos modelos en diferentes competencias lingüísticas, como a comprensión das lecturas, o sentido común e o razoamento, a análise dos sentimentos, a percepción das actitudes, a clasificación dos temas, a correferencia, a inferencia e os significados das palabras.
Os modelos Latxa conteñen a Chama-2 License, que permite a investigación e a actividade comercial, e están dispoñibles en HuggingFace.