O Centro HiTZ crea para o eúscaro un modelo lingüístico denominado Latxa

Texto xerado polo tradutor automático Elia sen revisión posterior por tradutores. Elia Elhuyar

Zabaldu:
Twitter
Facebook
Emaila

Logo de modelos lingüísticos en eúscaro Latxa. Ed. Centro Hitz

O Centro de Palabras presentou un gran modelo lingüístico para o eúscaro.Chamouno Latxa, está baseado nos modelos Chama de Meta e recolle modelos de entre 7 e 70 mil millóns de parámetros. Os LLM actuais teñen un rendemento sorprendente en linguas con moitos recursos, como os de ChatGPT ou Bard para inglés. Con todo, no caso do eúscaro e doutras linguas minoritarias o seu rendemento é moito menor. A Latxa desenvolveuse para reducir esta brecha.

En principio son tres lotes básicos, previamente formados pero non refinados en instrucións ou preferencias dirixidas ao usuario. Estes modelos non son, por tanto, de uso directo dos públicos xerais, pero son fundamentais para a construción de ferramentas útiles que utilicen a tecnoloxía lingüística para o eúscaro. Para o seu desenvolvemento utilizaron servidores tipo GPU e adestraron os últimos modelos no supercomputador Leonardo de CINECA.

Doutra banda, en canto aos textos, utilizaron EusCrawl. Este corpus, extraído de 33 webs de contido de calidade, ofrece mellor calidade que outras técnicas de composición de corpus a través de Internet. En total teñen 1,72 millóns de documentos e 288 millóns de palabras.

Para avaliar a calidade dos modelos miden a capacidade dos modelos en diferentes competencias lingüísticas, como a comprensión das lecturas, o sentido común e o razoamento, a análise dos sentimentos, a percepción das actitudes, a clasificación dos temas, a correferencia, a inferencia e os significados das palabras.

Os modelos Latxa conteñen a Chama-2 License, que permite a investigación e a actividade comercial, e están dispoñibles en HuggingFace.

Jarrai iezaguzu

Zu idazle

Zientzia aldizkaria

Aldizkaria paperean

O Centro HiTZ crea para o eúscaro un modelo lingüístico denominado Latxa

Jarrai iezaguzu

Zu idazle

Zientzia aldizkaria