Proposen una mètrica per a quantificar els biaixos demogràfics dels conjunts de dades de l'AA

Galarraga Aiestaran, Ana

Elhuyar Zientzia

aaren-datu-multzoen-alborapen-demografikoak-kuanti
D'esquerra a dreta, Mikel Galar Idoate, Iris Domínguez Catena i Daniel Paternáin Dallo, autors de l'estudi. Ed. UPNA

L'informàtic i membres de l'Institut ISC Smart Cities Iris Domínguez – Catena (NUP) han dissenyat mètriques per a quantificar els biaixos demogràfics dels conjunts de dades utilitzades per a l'entrenament de models d'intel·ligència artificial.

I és que, segons han explicat, en els sistemes d'intel·ligència artificial existeixen pocs o mal representats determinats grups demogràfics, com les dones, les persones majors de 70 anys i les persones negres. Això pot provocar que els sistemes d'intel·ligència artificial formats amb aquestes dades actuïn de manera incorrecta i siguin tractats discriminatòriament per determinats grups de població.

Per exemple, els investigadors han afirmat que alguns sistemes de filtrat curricular excloïen sistemàticament els currículums que semblaven femenins. I en el cas de la intel·ligència artificial generativa, com el sistema ChatGPT, s'han adonat que associa el gènere a determinades professions, mentre que alguns grups racials l'associen a unes certes característiques negatives.

La recerca, publicada en la revista IEEE Transactions on Pattern Analysis and Machine Intelligence, es basa en el coneixement automàtic de les expressions facials, és a dir, dels sistemes que inventen en les fotografies de les persones quines emocions representen. Aquests sistemes tenen importants aplicacions en medicina (detecció de senyals dolorosos en bebès), robòtica de suport (sobretot per a persones majors) i creació audiovisual.

Més d'una mena de biaix

Així, s'han analitzat més de vint conjunts de dades utilitzades per a l'entrenament dels sistemes esmentats. I han vist que en els conjunts de dades la presència d'homes i dones sol estar equilibrada, però no l'edat i la raça. De fet, les dades de les persones blanques d'entre 20 i 30 anys són molt més que els d'altres grups i, en conseqüència, els models d'intel·ligència artificial poden discriminar les persones majors de 70 anys i a les dones racionalitzades, entre altres. Aquests biaixos es denominen biaixos de representació.

Però no és l'únic biaix que tenen els sistemes d'intel·ligència artificial. De fet, es constata que el nombre de dones felices en molts grups de dades gairebé duplica al dels homes, mentre que el nombre de dones enfadades gairebé la meitat. Això suggereix al sistema que el gènere o el sexe de la persona estan relacionats amb la felicitat o l'empipament. Es denominen biaixos estereotípicos.

En total, s'han analitzat 17 mètriques per a quantificar tots els tipus de biaixos, d'on s'han deduït quals són les més adequades per a mesurar quantitativament els biaixos continguts en un conjunt de dades, primer pas per a evitar la transferència de biaixos a models d'intel·ligència artificial i minimitzar el seu impacte.

Babesleak
Eusko Jaurlaritzako Industria, Merkataritza eta Turismo Saila