Detectar el discurso del odio es una tarea con la que incluso los modelos de aprendizaje automático más avanzados luchan. Esto se debe a que el habla dañina se presenta en muchas formas diferentes, y los modelos deben aprender a diferenciar cada uno de los giros inofensivos de la frase. Históricamente, los modelos de detección del discurso del odio se han probado midiendo su rendimiento en datos utilizando métricas como la precisión. Pero esto hace que sea difícil identificar los puntos débiles de un modelo y se corre el riesgo de sobrestimar la calidad de un modelo, debido a lagunas y sesgos en los conjuntos de datos de incitación al odio.
En busca de una mejor solución, investigadores de la Universidad de Oxford, el Instituto Alan Turing, la Universidad de Utrecht y la Universidad de Sheffield desarrollaron HateCheck, un punto de referencia en inglés para los modelos de detección del discurso de odio creado mediante la revisión de investigaciones anteriores y la realización de entrevistas con 16 Organizaciones no gubernamentales (ONG) británicas, alemanas y estadounidenses cuyo trabajo se relaciona con el odio en línea. Las pruebas de HateCheck en modelos de detección casi de última generación, así como la herramienta Perspective de Jigsaw, revelaron “debilidades críticas” en estos modelos, según el equipo, lo que ilustra la utilidad del punto de referencia.
Las pruebas de HateCheck analizan 29 modos que están diseñados para ser difíciles para los modelos que se basan en reglas simplistas, incluido el discurso de odio despectivo, el lenguaje amenazador y el odio expresado con blasfemias. Dieciocho de las pruebas cubren distintas expresiones de odio (p. Ej., Declaraciones como “Odio a los musulmanes”, “Es típico que una mujer sea tan estúpida”, “Los negros son escoria”), mientras que las 11 pruebas restantes cubren lo que los investigadores llaman contrastivo no odio, o contenido que comparte características lingüísticas con expresiones de odio (por ejemplo, “Adoro absolutamente a las mujeres”, que contrasta con “Detesto absolutamente a las mujeres”).
En experimentos, los investigadores analizaron dos modelos DistilBERT que lograron un sólido desempeño en conjuntos de datos públicos de discursos de odio y el modelo de “ataque de identidad” de Perspective, una API lanzada en 2017 para la moderación de contenido. La perspectiva es mantenida por el equipo de Tecnología contra el abuso de Google y Jigsaw, la organización que trabaja bajo la empresa matriz de Google, Alphabet, para abordar el ciberacoso y la desinformación, y es utilizada por organizaciones de medios como New York Times y Vox Media.
Los investigadores encontraron que a partir de diciembre de 2020, todos los modelos parecen ser demasiado sensibles a palabras clave específicas, principalmente calumnias y blasfemias, y a menudo clasifican erróneamente los contrastes que no son de odio (como la negación y el contra discurso) en torno a frases de odio.
Arriba: Ejemplos de incitación al odio en HateCheck, junto con la precisión de cada modelo que probaron los investigadores.
El modelo Perspectiva lucha particularmente con las denuncias de odio que citan el discurso de odio o hacen referencia directa a él, clasificando solo entre el 15,6% y el 18,4% de estos correctamente. El modelo reconoce solo el 66% del discurso de odio que usa un insulto y el 62,9% del abuso dirigido a grupos “no protegidos” como “artistas” y “capitalistas” (en declaraciones como “los artistas son parásitos de nuestra sociedad” y “muerte de todos capitalistas “), y solo el 54% de los insultos” reclamados “como” queer “. Además, la API de perspectiva puede no detectar variaciones ortográficas como caracteres faltantes (74,3% de precisión), espacios agregados entre caracteres (74%) y ortografía con números en lugar de palabras (68,2%).
En cuanto a los modelos DistilBERT, exhiben sesgos en sus clasificaciones a través de ciertos grupos de género, etnia, raza y sexo, clasificando erróneamente más contenido dirigido a algunos grupos que a otros, según los investigadores. Uno de los modelos tenía solo un 30,9% de precisión para identificar el discurso de odio contra las mujeres y un 25,4% para identificar el discurso contra las personas con discapacidad. El otro tenía una precisión del 39,4% para el discurso de odio contra los inmigrantes y un 46,8% para el discurso contra los negros.
“Parece que todos los modelos codifican en cierta medida reglas de decisión simples basadas en palabras clave (por ejemplo, ‘los insultos son odiosos’ o ‘los insultos no son odiosos’) en lugar de capturar los fenómenos lingüísticos relevantes (p. Ej., ‘Los insultos se pueden reclamar sin odio usos’). Ellos [also] parecen no registrar suficientemente las señales lingüísticas que reformulan frases de odio en frases claramente no odiosas (por ejemplo, ‘Ningún musulmán merece morir’) ”, escribieron los investigadores en un artículo preimpreso que describe su trabajo.
Los investigadores sugieren el aumento de datos dirigido o modelos de entrenamiento en conjuntos de datos adicionales que contienen ejemplos de discurso de odio que no detectaron, como una técnica para mejorar la precisión. Pero ejemplos como la campaña desigual de Facebook contra el discurso del odio muestran importantes desafíos tecnológicos. Facebook afirma haber invertido sustancialmente en tecnologías de filtrado de contenido de inteligencia artificial, detectando de manera proactiva hasta el 94,7% del discurso de odio que finalmente elimina. Pero la compañía aún no logra detener la propagación de publicaciones problemáticas, y una investigación reciente de NBC reveló que en Instagram en los EE. UU. El año pasado, los usuarios negros tenían aproximadamente un 50% más de probabilidades de que sus cuentas se deshabilitaran mediante sistemas de moderación automatizados que aquellos cuya actividad indicaba. eran blancos.
“Para aplicaciones prácticas como la moderación de contenido, estas son debilidades críticas”, continuaron los investigadores. “Los modelos que clasifican erróneamente los insultos reclamados penalizan a las mismas comunidades que suelen ser blanco de los discursos de odio. Los modelos que clasifican erróneamente el contra-discurso socavan los esfuerzos positivos para combatir el discurso del odio. Es probable que los modelos que están sesgados en la cobertura de sus objetivos creen y afiancen sesgos en las protecciones otorgadas a diferentes grupos “.
VentureBeat
La misión de VentureBeat es ser una plaza urbana digital para que los tomadores de decisiones técnicas obtengan conocimientos sobre tecnología transformadora y realicen transacciones. Nuestro sitio ofrece información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que dirige sus organizaciones. Lo invitamos a convertirse en miembro de nuestra comunidad, para acceder a: información actualizada sobre los temas de su interés, nuestros boletines informativos con contenido exclusivo para líderes de opinión y acceso con descuento a nuestros preciados eventos, como las funciones de redes Transform, y más. Hazte miembro
Source: http://feedproxy.google.com/~r/venturebeat/SZYF/~3/p776vg60U_E/