Los investigadores de Orio han creado una novedosa técnica para corregir el sesgo de género en la traducción automática. El resultado de esta investigación será de gran utilidad para corregir el problema que tienen los traductores automáticos, en especial los traductores automáticos que permiten traducir de lenguas sin género.
El sesgo de género es un problema conocido en el ámbito de la inteligencia artificial. Como la mayoría de los algoritmos aprenden de los ejemplos, también aprenden los sesgos y estereotipos sociales presentes en los ejemplos introductorios. Por tanto, los sistemas que aprenden con estos algoritmos tienden a repetir este sesgo.
Los sistemas neuronales de traducción automática también tienen este problema y llevan a las traducciones el sesgo de género que aparece en los ejemplos de entrenamiento. Por ejemplo:
Mi madre es herrera. Mi madre es herrero.
Mi padre es enfermera. Nire aita es enfermera.
El uso masivo de sistemas de traducción automática conlleva el riesgo de mantener e incrementar este tipo de sesgos de género. La gestión del problema del sesgo de género no es fácil, y mucho menos cuando la traducción se realiza desde una lengua sin género, como el euskera. Orai ha investigado y desarrollado una técnica innovadora para lenguas sin género.
La técnica propuesta combina dos métodos: “Aprendiendo sistemas neuronales con sesgo desde ejemplos equilibrados, un método para corregir este sesgo y un método para incorporar de forma explícita la información de género al sistema neuronal en una lengua sin género”, ha señalado el investigador de Orai, Ander Corral Naves.
Asimismo, “la técnica creada es computacionalmente ágil y no es compleja su integración en sistemas en producción”, ha añadido el responsable de NLP Tecnologías de Orai, Xabier Saravia Urizar. “Es un paso importante: gracias a esta técnica estamos más cerca de la traducción automática sin sesgos de género”.
Este trabajo ha sido presentado en la Séptima Conferencia de Traducción Automática (Seventh Conference on Machine Translation - WMT22).