Le Centre HiTZ crée pour l'basque un modèle linguistique appelé Latxa

latxa-izeneko-hizkuntza-eredua-sortu-du-hitz-zentr
Logo des modèles linguistiques en euskera Latxa. Ed. Centre Hitz

Le Centre de Mots a présenté un grand modèle linguistique pour le euskera.Lo a appelé Latxa, est basé sur les modèles LLaMA de Meta et recueille des modèles de 7 à 70 milliards de paramètres. Les LLM actuels ont des performances étonnantes dans des langues avec de nombreuses ressources, comme celles de ChatGPT ou de Bard pour l’anglais. Cependant, dans le cas de l'basque et d'autres langues minoritaires, leur rendement est beaucoup moins élevé. La Latxa s’est développée pour réduire cet écart.

En principe, il s'agit de trois lots de base, préalablement formés mais non affinés dans des instructions ou des préférences adressées à l'utilisateur. Ces modèles ne sont donc pas directement utilisés par les publics généraux, mais ils sont essentiels pour la construction d'outils utiles utilisant la technologie linguistique pour l'euskera. Pour leur développement, ils ont utilisé des serveurs GPU et formé les derniers modèles sur le super-ordinateur Leonardo de CINECA.

D'autre part, quant aux textes, ils ont utilisé EusCrawl. Ce corpus, extrait de 33 sites de contenu de qualité, offre une meilleure qualité que d'autres techniques de composition de corpus via Internet. Au total, ils ont 1,72 million de documents et 288 millions de mots.

Pour évaluer la qualité des modèles, ils mesurent la capacité des modèles dans différentes compétences linguistiques, telles que la compréhension des lectures, le bon sens et le raisonnement, l'analyse des sentiments, la perception des attitudes, la classification des sujets, la correction, l'inférence et les significations des mots.

Les modèles Latxa contiennent le LLaMA-2 License, qui permet la recherche et l'activité commerciale, et sont disponibles sur Hugging Face.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila