L’informatique et les membres de l’Institut ISC Smart Cities Iris Domínguez – Catena (NUP) ont conçu des mesures pour quantifier les biais démographiques des ensembles de données utilisés pour la formation de modèles d’intelligence artificielle.
Et c'est que, comme ils l'ont expliqué, les systèmes d'intelligence artificielle ne comportent que peu ou mal représentés certains groupes démographiques, comme les femmes, les personnes de plus de 70 ans et les personnes noires. Les systèmes d’intelligence artificielle constitués de ces données peuvent ainsi agir de manière incorrecte et être traités de manière discriminatoire par certains groupes de population.
Par exemple, les chercheurs ont affirmé que certains systèmes de filtrage des programmes d'études excluaient systématiquement les programmes qui semblaient féminins. Et dans le cas de l'intelligence artificielle générative, comme le système ChatGPT, ils ont réalisé qu'il associe le genre à certaines professions, tandis que certains groupes raciaux l'associent à certaines caractéristiques négatives.
La recherche, publiée dans la revue IEEE Transactions on Pattern Analysis and Machine Intelligence, est basée sur la connaissance automatique des expressions faciales, c'est-à-dire des systèmes qui inventent les photos des personnes qu'elles représentent. Ces systèmes ont d'importantes applications en médecine (détection de signaux douloureux chez les bébés), en robotique de soutien (surtout pour les personnes âgées) et en création audiovisuelle.
Ainsi, plus de vingt ensembles de données utilisés pour la formation des systèmes susmentionnés ont été analysés. Et ils ont vu que dans les ensembles de données, la présence des hommes et des femmes est généralement équilibrée, mais pas l'âge et la race. En fait, les données des personnes blanches âgées de 20 à 30 ans sont beaucoup plus nombreuses que celles des autres groupes et, par conséquent, les modèles d'intelligence artificielle peuvent discriminer les personnes âgées de plus de 70 ans et les femmes rationalisées, entre autres. Ces biais sont appelés des biais de représentation.
Mais ce n’est pas le seul biais des systèmes d’intelligence artificielle. En fait, on constate que le nombre de femmes heureuses dans de nombreux groupes de données est presque doublé par rapport aux hommes, tandis que le nombre de femmes en colère est de près de la moitié. Cela suggère au système que le genre ou le sexe de la personne sont liés au bonheur ou à la colère. Ils sont appelés des préjugés stéréotypés.
Au total, 17 mesures ont été analysées pour quantifier tous les types de biais, d'où l'on a déduit qu'ils sont les plus appropriés pour mesurer quantitativement les biais contenus dans un ensemble de données, première étape pour éviter le transfert de biais à des modèles d'intelligence artificielle et minimiser leur impact.