Boom de l'intelligence artificielle créative

Leturia Azkarate, Igor

Informatikaria eta ikertzailea

Elhuyar Hizkuntza eta Teknologia

Les noms de Stable Diffusion, LaMDA, Midjourney, GPT, DALL-E, Bard et, surtout, de ChatGPT, qui, ces derniers mois, ne parlent que de rien, non seulement dans le monde de la technologie, mais aussi dans les médias, les réseaux sociaux et la société en général. Tous sont des systèmes d'intelligence artificielle créative capables de produire des textes longs, des réponses structurées à des questions et des images. Au cours de l'année écoulée, le secteur a fait un progrès vraiment surprenant, au point d'offrir des résultats vraiment utiles et même surprenants dans de nombreux cas, et de nombreux domaines dans lesquels ces systèmes sont de plus en plus appliqués. Nous savons mieux ce qu’est l’intelligence artificielle créative, comment elle fonctionne, quelles possibilités elle offre et quels risques elle comporte.

adimen-artifizial-sortzailearen-booma
Ed. Family Stock/Shutterstock

Les personnes qui travaillent avec les technologies de la langue et de la parole ont travaillé principalement sur la partie d’analyse ou de compréhension, c’est-à-dire sur des systèmes qui fournissent une sortie plus courte d’une entrée: classification de textes, synthèse, extraction d’entités ou de terminologie… Ou encore sur ceux qui fournissent un résultat d’une extension similaire, transformé en un autre moyen ou code: analyse, correction ou traduction de textes, conversion de texte en parole, transcription audio, etc. Mais dans les systèmes qui génèrent une sortie plus longue ou plus travaillée que l'entrée, c'est-à-dire dans la sous-zone de génération automatique de texte (NLG, Natural Language Generation), nous avons travaillé très peu parce que la tâche est beaucoup plus difficile et que les résultats adéquats n'étaient pas obtenus. Il en est de même dans d'autres domaines de l'intelligence artificielle, comme les images ou les vidéos, où l'on procédait à une analyse des images pour détecter des objets présents ou pour décrire l'image, mais la création d'images n'existait guère. C'est-à-dire que l'intelligence artificielle créatrice était ou semblait peu développée.

Un été d'intelligence artificielle créative

Et tout d'abord, depuis le début, l'année dernière, il y a eu une explosion de systèmes de production de textes longs, d'images ou de réponses structurées à des questions. Plusieurs entreprises et organisations, au-delà de la publication d'articles scientifiques sur leurs recherches, ont ouvert l'utilisation des systèmes développés ou ont montré leurs résultats au grand public, constatant que la qualité des intelligences artificielles créatives était très élevée. Les outils de création d’images Stable Diffusion, Midjourney et DALL-E, les outils de création de texte GPT et LaMDA et les bottes de réponse aux questions ChatGPT et Bard sont des exemples de ces systèmes ouverts ou affichés. Ce n'était pas un hasard si tout le monde s'ouvrait dans un temps (presque en rampe) similaire. Bien sûr, ils voulaient surprendre les gens avec les résultats et générer l'aspiration de l'instrument, en plus d'anticiper la concurrence ou de montrer qu'ils ne sont pas en retard. Mais tous ces tests effectués par les gens ont certainement servi à affiner leurs systèmes, à détecter des défaillances dans des cas réels, à détecter et à limiter désormais des utilisations inappropriées, etc.

Le principal responsable de cette explosion est OpenAI, qui est le DALL-E, GPT et ChatGPT. OpenAI est une entreprise à but non lucratif, fondée en 2015, dans laquelle Elon Muskiz, Microsoft, etc. contribuer au développement de l'intelligence artificielle, à la collaboration avec d'autres acteurs et à la libre réalisation de leurs développements. Cependant, M n'est pas dans cette entreprise, depuis 2019, il travaille dans l'esprit de conquérir, peu à peu Microsoft a mis plus d'argent et a pris le pouvoir jusqu'à ce que, dans la pratique, la plupart des développements ne les rendent pas libres (GPT Microsoft peut l'exploiter exclusivement). En plus d'OpenAI se trouve Google avec LaMDA et Bard.

DALL-e produit des images. Ed. Diego Thomazini/Shutterstock

Base: Grands modèles de langages

La plupart de ces systèmes sont basés sur de grands modèles de langages (LLM, Large Language Models). Les grands modèles de langages, comme presque tous les systèmes d'intelligence artificielle actuels, sont un type de réseau neuronal profond. Ils s'entraînent avec les textes pour une tâche, en principe très simple: prévoir le mot suivant d'un fragment, selon les probabilités des textes observés pendant l'entraînement. Mais étant des réseaux extrêmement importants (avec des millions ou des milliers de paramètres) et s'entraîner avec d'énormes quantités de textes (des milliards de mots), ils absorbent une grande partie de la syntaxe et de la sémantique du langage, ainsi qu'une grande connaissance générale du monde. Et si la longueur de mot des phrases que vous acceptez à l'entrée est assez grande et enchaînant à nouveau le mot prédisposé à la sortie, de longs textes peuvent surgir. Ce GPT ou LaMDA sont les LLM pour former un texte long avec un début de texte.

En outre, ces grands modèles de langages peuvent être adaptés à d'autres tâches grâce au procédé de fine-tuning. Ainsi, ajustés à quelques questions, vous pouvez vous entraîner à agir comme chatbot et, si la longueur de l'entrée est suffisamment grande, vous pouvez inclure vos réponses précédentes comme entrées, formant une conversation complète, rappelant et raffinant les réponses précédentes si vous en avez besoin. Et ce sont ChatGPT et Bard. Ou bien, en l'ajustant aux images et à leurs descriptions, en donnant un texte, vous pouvez obtenir un système de création d'images, qui en définitive est DALL-E. Vous pouvez également obtenir qu'une LLM soit utilisée pour d'autres tâches sans avoir besoin d'être ajustée ou réformée à l'aide de prompt engineering ou de l'ingénierie de phrases d'entrée. Par exemple, si nous vous donnons un texte et vous spécifions « C’est le sujet de ce texte précédent », vous ferez une classification de texte ; ou un résumé de texte si nous incluons « C’est un résumé du texte précédent » ; ou une traduction si nous vous demandons « Traduire à je ne sais pas ce que l’anglais ».

Les AES mentionnées sont formées avec des textes dans certaines langues, de sorte qu'elles sont capables de comprendre et de répondre aux questions qui leur sont posées et d'effectuer une traduction automatique entre elles à travers le prompting (oui, le nombre de textes dans toutes les langues n'est pas le même, et dans certaines d'entre elles fonctionne très bien mais dans d'autres non). Au contraire, lors de l'entraînement, vous avez reçu un code composé de plusieurs langages de contenu, et vous pouvez également écrire des programmes. Et GPT-4 accepte également les images comme introduction pour donner des réponses ou des arguments à leur sujet.

ChatGPT ne donne pas toujours les bonnes réponses. Dans le même dialogue, vous pouvez dire une chose et le contraire.

Ainsi, la dernière version de ChatGPT contient 175 milliards de paramètres, est formée de 500 milliards de mots en 95 langues et l'extension de mots qu'elle prend en charge dans son introduction est de 32 000 mots. Et il donne vraiment de très bons résultats, souvent étonnants: longs, linguistiques corrects et bien structurés. Et les réponses sont toujours très crédibles et les expulsent en toute sécurité. Cependant, souvent, les réponses ne sont pas toujours correctes, complètes ou optimales.

En définitive, ChatGPT n’est pas une intelligence artificielle globale ou dure (AGI, Artificiel General Intelligence ou Strong AI), c’est-à-dire une intelligence réelle capable de « comprendre » (classer les faits de manière structurée) et de raisonner à leur sujet, ni une tentative d’y parvenir. Comme on l'a dit, le mot ne se forme que selon la probabilité, généralement très bien, en raison du grand nombre de textes qui lui ont été donnés pour apprendre. Mais dans ces textes d’entraînement il y a de la fiction, des informations erronées, des contradictions… et il peut y répondre à partir d’eux, mélanger des choses très différentes… Comme on dit dans le langage technique, il peut « halluciner ». Et comme chatbot essaie de répondre à toutes les questions pour que l’utilisateur se sente satisfait, il peut approcher quand il manque des informations, adapter la réponse aux mots concrets de la question (maintenant en disant une chose, puis le contraire, même dans la même conversation si elle est encouragée)… Et cela sans être conscient que tout est vrai ou mensonge, ou qu’il est inventé! Certains ont fait valoir que nous le faisons aussi et que notre cerveau fonctionne ainsi, mais les experts ont bien compris que ce n'est pas le cas.

Une course folle pour se mettre où que vous soyez

En tout état de cause, Microsoft et Google sont entrés dans une carrière alléchante, chacun ayant mis son assistant virtuel (ChatGPT et Bard, respectivement) auparavant disponible dans leurs outils (moteurs de recherche, logiciels de bureautique, etc. ), Bien sûr, ils le font dans l'intention d'augmenter le quota d'usuari@ et de l'enlever un peu à l'autre. Les gens sont également désireux de commencer à l'utiliser.

Mais je ne sais pas si cela est vraiment utile pour les chercheurs. En fait, les moteurs de recherche fonctionnent bien pour les recherches navigables (qui visent à connaître l’adresse du site web d’une personne ou entité) et transactionnelles (qui visent à acheter quelque chose). Dans les premiers, le résultat le plus approprié est généralement parmi les premiers, nous détectons et sélectionnons rapidement et dans les secondes, nous voulons analyser toutes les alternatives. Nous nous fierions de la seule solution qui nous donne un omniscient chatbot? En outre, ils ne sont pas en mesure de fournir des informations à jour, car les données de formation de ces sujets seront obsolètes dès la fin de l'entraînement et la publication du nouveau système (les données de ChatGPT remontent à septembre 2021). Et de nombreux outils basés sur des bases de données et des algorithmes relativement simples fonctionnent parfaitement: pour les amener sur un site GPS, pour acheter des billets d'avion... Il n’est pas logique de les remplacer par d’autres comme ChatGPT ou Bard (et ils ne seront probablement pas remplacés, si une telle question est détectée, ils seront dérivés de systèmes classiques).

Ils peuvent être plus adaptés aux recherches informationnelles (lorsque nous cherchons des informations sur quelque chose), car au lieu d'analyser une liste de réponses une par une, il nous donnera une réponse directe et nous fera économiser du travail. Mais on ne peut pas savoir si l’information est correcte ou complète sans assumer ce travail… Et si les utilisateurs cessent d’entrer dans les pages web de résultats, comment se maintiendra progressivement sans visiter l’écosystème actuel des sites Web et des médias ?

En fait, plus que le public généraliste pour rechercher des informations ou demander des choses, ces outils d’intelligence artificielle créatrice sont plus utiles pour ceux qui doivent créer et, au lieu de remplacer les chercheurs, il est plus logique de créer d’autres outils ou services pour ces tâches.

Autant de risques que d'avantages

En tout état de cause, beaucoup de personnes et de secteurs qui doivent écrire des textes ou faire des images ont déjà commencé à les utiliser ou font des adaptations pour les utiliser le plus rapidement possible: enseignants, écrivains, journalistes, dessinateurs, élèves, scientifiques… Mais il faut bien comprendre que commencer à les utiliser sans être conscients des avantages et des risques et sans réfléchir sur comment et pour quoi.

D'une part, le risque de s'appuyer directement sur la réponse fournie par ces chatbots, c'est-à-dire de publier des informations erronées ou de les envoyer à l'évaluateur. Les personnes qui travaillent à la mise au point de systèmes de traduction automatique doivent dessiner ce que nous disons toujours, qu'il faut le revoir avant de le publier ou de l'utiliser. Évidemment, dans de nombreux cas, on ne va pas faire parce que cela exige un peu de connaissances et de travail, et il y a des élèves qui préfèrent risquer que d’apprendre ou d’écrire, certains créateurs qui gagnent du temps, certains éditeurs qui économisent de l’argent… D’autres fois, ils ne se feront pas parce qu’ils pensent que les systèmes d’intelligence artificielle sont infaillibles (comme c’est actuellement le cas avec certains systèmes de traduction automatique).

Dans le domaine de l'éducation, certains disent que ces systèmes ne peuvent être évités et qu'il faut apprendre aux élèves à en tirer profit, mais il y a aussi une préoccupation quant aux conséquences qu'ils peuvent avoir de ne pas travailler une compétence comme l'écriture dans les résultats scolaires ou dans les apprentissages.

Au-delà des conséquences personnelles, cela peut mener à terme à la prolifération de contenus médiocres, erronés, similaires ou délibérément faux dans les réseaux ou les médias. Et étant donné que les futurs systèmes d’intelligence artificielle seront alimentés et entraînés avec ces contenus, le système lui-même peut également provoquer une aggravation (semblable à la détérioration génétique provoquée par l’endogamie).

Microsoft (Open AI) et Google entrent dans une course folle. Ed. JRdes/Shutterstock

D'autre part, il est clair que cela peut entraîner une perte importante d'emplois. Il y a des secteurs inquiets et/ou fâchés, en particulier les dessinateurs sont enthousiasmés, étant donné que pour former ce système AA qui peut les enlever le travail ont utilisé leurs dessins sans respecter le copyright et illégalement… Et il en va de même pour les générateurs de texte. Certains réclament une législation permettant de vérifier les données de ces systèmes.

De plus, ces systèmes facilitent la création de contenus faux qui semblent véridiques (en plus de créer du texte et de l'image, il existe aussi des systèmes qui peuvent produire de l'audio et de la vidéo) et exigent des systèmes ou des mécanismes de détection (comme des filières d'eau cachées), ce qui est techniquement très difficile.

Il y a aussi des préoccupations environnementales, car ces gigantesques systèmes consomment une quantité énorme d'énergie pour former et utiliser. L'utilisation et l'expansion massive de ces systèmes ne semblent pas être les meilleurs dans le contexte de l'urgence climatique dans laquelle nous nous trouvons.

Enfin, tous ces systèmes sont influencés négativement par le développement des R.D.T. des États-Unis, qui ont été clairement vus avec les outils existants (bureautique, traduction automatique, haut-parleurs intelligents, moteurs de recherche…), biais multi-niveau (sexe, race, langue, culture…), perte de vie privée, perte de souveraineté technologique, concentration de la richesse en quelques mains…

Dans certaines grandes langues, cela fonctionne très bien, mais dans les petites langues, il ne le fait pas autant.

Pour en savoir plus sur ces risques et dommages, il est fortement recommandé de suivre Emily Bender et Timnit Gebru, qui sont chargés de les avertir.

Et l'euskera, quoi?

Nous avons déjà commenté que ChatGPT est multilingue mais pas de manière équilibrée. Bien sûr, l'anglais est la langue qui fonctionne le mieux (biais linguistique mentionné), dans d'autres grandes langues il fonctionne très bien, mais dans les petites langues moins. ChatGPT a euskera et on peut dire qu'il fonctionne assez bien, mais il a encore un chemin d'amélioration. Et la connaissance de la culture ou des thèmes basques n'est pas celle dont il aurait besoin (biais culturel mentionné). Si l'utilisation du ChatGPT devient quotidienne ou habituelle, ce sera un autre domaine qui perdra l'euskera, car, comme dans de nombreux autres domaines, les Basques l'utiliseront en espagnol, en français ou en anglais si cela fonctionne mieux, et pensez à ce que cela peut influencer, surtout si nous le faisons en éducation.

Au lieu de consacrer le ChatGPT à un espoir incertain ou exigeant d'un avenir meilleur en euskera, la voie est de développer ce type de technologies autrement ou localement. Et, bien que ChatGPT fût très bien en euskera, ces dommages dérivés de la propriété des multinationales technologiques (manque de confidentialité, concentration de richesse, dépendance technologique…) resteraient là.

À cet égard, il existe des initiatives visant à développer les CME différemment et à libérer les systèmes développés, tels que GPT-J, EleutherAI, fondés par l'entreprise à but non lucratif, ou le BLOOM, développé conjointement par de nombreux chercheurs du monde entier. Les deux revendiquent des résultats similaires à ceux de GPT ou de ChatGPT. Cependant, le GPT-j est beaucoup plus petit en taille et n'a pas euskera dans les données d'entraînement, tandis que le BLOOM est de la taille du GPT et dans les données d'entraînement il a peu euskera. On peut donc supposer que les deux ne fonctionneront pas très bien en basque.

Et c'est que lorsque les géants introduisent l'euskera dans leurs outils, ils le font de manière générique et avec un effort minimal, c'est-à-dire en utilisant des données qui peuvent être facilement obtenues, sans analyser la qualité ou sans faire un effort manuel spécial pour obtenir des quantités plus importantes, en les confondant avec toutes les autres données et en les laissant dans une très faible proportion. Au contraire, les agents locaux ont souvent démontré que, en faisant un effort pour obtenir ou produire des données de qualité en basque en grande quantité, en développant des outils uniquement pour l'euskera, et en faisant un développement spécifique pour des tâches spécifiques plutôt qu'un seul instrument valable pour tous, nous sommes en mesure d'obtenir des résultats très bons pour l'euskera (souvent meilleurs que ceux des géants technologiques), par exemple dans le domaine de la traduction et/transcription automatique.

La connaissance de la culture et des thèmes basques n'est pas bonne.

Dans le centre de travail Orai NLP Teknologia où je travaille, qui fait partie d'Elhuyar, nous travaillons dans le domaine des intelligences créatives GPT ou ChatGPT pour l'euskera, mais ce n'est pas une tâche facile, d'une part, les exigences des structures gigantesques et croissantes pour les stocker, les former et produire les résultats en euskera personne ne sont entre les mains. C'est pourquoi, dans la lignée d'autres langues minoritaires ou minoritaires, des recherches sont en cours pour obtenir des structures plus petites et avec moins de données, des instruments de ce type et des résultats similaires. Pour voir si nous y parvenons, puis si nous réussissons tous à l'utiliser correctement!

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila