El sesgo en la IA es omnipresente. Desde modelos dermatológicos que discriminan a los pacientes de piel oscura hasta algoritmos de calificación de exámenes que perjudican a los estudiantes de escuelas públicas, no es necesario buscar muy lejos ejemplos de prejuicios codificados en los sistemas de inteligencia artificial. Pero, ¿cómo surgen estos sesgos en primer lugar? Los investigadores de la Universidad de Columbia intentaron descubrir esto asignando a 400 ingenieros de inteligencia artificial la creación de algoritmos que hicieron más de 8,2 millones de predicciones sobre 20.000 personas. En un estudio de coautoría aceptado en la conferencia de aprendizaje automático NeurIPS 2020, los investigadores concluyen que las predicciones sesgadas son causadas principalmente por datos desequilibrados, pero que la demografía de los ingenieros también juega un papel.
“A través de una amplia variedad de modelos teóricos de comportamiento, las predicciones sesgadas son responsables de la segregación demográfica y las disparidades de resultados en entornos que incluyen los mercados laborales, la justicia penal y la publicidad”, escribieron los investigadores. “La investigación y el discurso público sobre este tema han crecido enormemente en los últimos cinco años junto con un crecimiento en los programas para introducir la ética en la formación técnica. Sin embargo, pocos estudios han intentado evaluar, auditar o aprender de estas intervenciones o conectarlas con la teoría “.
Los investigadores reclutaron al 80% de los ingenieros que evaluaron a través de un campo de entrenamiento que enseñó técnicas de inteligencia artificial a un nivel de licenciatura avanzada o licenciatura en ciencias de la computación. El 20% restante eran contratistas independientes de aprendizaje automático que habían trabajado en la industria un promedio de unos cuatro años. A los 400 se les asignó la misma tarea: desarrollar un algoritmo para predecir el rendimiento matemático a partir de solicitudes de empleo y aplicarlo a 20.000 personas que no aparecen en un conjunto de datos de formación.
Para los propósitos del estudio, los ingenieros se dividieron en grupos en los que a ciertos ingenieros se les proporcionaron datos que presentaban problemas de selección de muestras realistas (es decir, sesgados) mientras que otros recibieron datos que no presentaban problemas de selección de muestras. Un tercer grupo recibió los mismos datos de entrenamiento que el primer grupo, además de un recordatorio no técnico sobre la posibilidad de sesgo algorítmico, y un cuarto recibió estos datos y un recordatorio, así como un documento técnico simple sobre los métodos de corrección de selección de muestras en máquinas. aprendizaje.
Como era de esperar, los investigadores encontraron que los algoritmos desarrollados por ingenieros con mejores datos de entrenamiento exhibían menos sesgos. Además, este subconjunto de ingenieros pasó más horas trabajando en sus algoritmos, lo que sugiere que el beneficio marginal del desarrollo se hizo mayor con datos de mayor calidad.
Pero los datos de entrenamiento o la falta de ellos no fueron la única fuente de sesgo, según los investigadores. Como se mencionó anteriormente, también encontraron que los errores de predicción estaban correlacionados dentro de los grupos demográficos, particularmente el género y la etnia. Los errores de predicción algorítmica de dos programadores varones blancos tenían más probabilidades de estar correlacionados entre sí; a diferencia de las programadoras, los hombres blancos tenían una tendencia a duplicar los errores. No se observó tal efecto entre ingenieros masculinos y femeninos de ascendencia asiática, india, negra y latina.
Esta disparidad de género podría explicarse por estudios que muestran que las mujeres en ciencias de la computación están socializadas para sentir que tienen que alcanzar la perfección. Una encuesta realizada por Supporting Women in Information Technology, con sede en Vancouver, encontró que las mujeres que buscan un título en ciencias de la computación dicen que tienen menos confianza que sus contrapartes masculinas cuando usan una computadora. Un trabajo más reciente publicado por Gallup y Google revela que las niñas estadounidenses de séptimo a duodécimo grado expresan menos confianza que los niños en su capacidad para aprender habilidades informáticas.
El sesgo podría mitigarse un poco con los recordatorios, dicen los investigadores, pero los resultados fueron mixtos en las intervenciones de orientación técnica. Los programadores que entendieron el documento técnico redujeron con éxito el sesgo, pero la mayoría no siguió el consejo, lo que resultó en algoritmos peores que los programadores a los que se les dieron los recordatorios.
Los investigadores advierten que su artículo no es la última palabra sobre las fuentes de sesgo algorítmico y que su grupo de sujetos, aunque ligeramente más diverso que la población de ingenieros de software de EE. UU., Contenía principalmente hombres (71%), Asia oriental (52%) y blancos. (28%) ingenieros. Los ingenieros reclutados en el campo de entrenamiento también tenían menos experiencia que los autónomos y solo el 31% había sido empleado por “una empresa de renombre” en el momento de la publicación del estudio.
Sin embargo, los coautores creen que su trabajo podría servir como un trampolín importante para identificar y abordar las causas del sesgo de la IA en la naturaleza. “Las preguntas sobre el sesgo algorítmico a menudo se enmarcan como problemas teóricos de la informática. Sin embargo, los algoritmos producidos son desarrollados por humanos, trabajando dentro de organizaciones que están sujetas a entrenamiento, persuasión, cultura, incentivos y fricciones de implementación ”, escribieron. “Un enfoque experimental de campo empírico también es útil para evaluar soluciones políticas prácticas”.
Por supuesto, es difícil, si no imposible, eliminar completamente el sesgo de los algoritmos. Los modelos de reconocimiento facial no reconocen a las personas negras, de Oriente Medio y latinx con más frecuencia que a las personas de piel más clara. Los investigadores de IA del MIT, Intel y la iniciativa canadiense de IA CIFAR han encontrado altos niveles de sesgo en algunos de los modelos preentrenados más populares. Y los algoritmos desarrollados por Facebook han demostrado tener un 50% más de probabilidades de desactivar las cuentas de los usuarios negros en comparación con los usuarios blancos.
Sin embargo, aparte de eso, el nuevo documento se suma al creciente coro de voces que piden una mayor atención al tema del sesgo en la IA.
Source: http://feedproxy.google.com/~r/venturebeat/SZYF/~3/Z6vGYzmAwOE/