Creación de herramientas más sólidas para la detección de la incitación al odio

Microsoft Research desarrolla herramientas de moderación capaces de detectar el discurso de odio implícito contra grupos minoritarios. Estas herramientas pueden utilizarse para grandes modelos lingüísticos (LLM, sigla en inglés). Los grandes modelos lingüísticos han surgido como una de las áreas de investigación más candentes de la inteligencia artificial en los últimos años.

Los llamados “grandes modelos lingüísticos” (LLM) se entrenan a partir de grandes cantidades de datos procedentes de Internet. Este sistema es capaz de generar un lenguaje inapropiado y perjudicial, a partir de las palabras que reciben a través de las redes.

También se han creado herramientas de moderación de contenidos que pueden marcar o filtrar palabras en algunos contextos.

Sin embargo, en algunos conjuntos de datos, la moderación no logra captar las complejidades del lenguaje potencialmente inapropiado y tóxico, especialmente el discurso de odio.

En las pruebas realizadas hay insultos, palabrotas y menciones explícitas a grupos identitarios minoritarios. También se percibe una dificultad de estas herramientas para reconocer referencias oscuras o chistes internos dentro del discurso de odio.

Como resultado, las herramientas pueden marcar como discurso de odio cualquier lenguaje que haga referencia a un grupo de identidad minoritario, incluso cuando ese lenguaje sea neutral. Por otra parte, las herramientas entrenadas con estos datos no pueden detectar el lenguaje nocivo cuando no hay insultos conocidos o explícitos, palabrotas o menciones explícitas a grupos de identidad minoritarios.

Microsoft Research ha estado desarrollando investigaciones para mejorar estas herramientas de moderación. El estudio “ToxiGen: Un conjunto de datos a gran escala generados por máquinas para la detección de discursos de odio implícitos y adversarios” muestra ejemplos de declaraciones neutrales con discurso de odio hacia grupos de identidades minoritarios.

Los investigadores pusieron a disposición un conjunto de datos, las herramientas de moderación de contenidos entrenadas en el conjunto de datos, los avisos utilizados como datos iniciales y los códigos fuente para el enfoque de decodificación adversaria propuesto en el estudio, todo ello accesible en el repositorio del ToxiGen GitHub.

 

FUNIBER promueve los estudios en el área tecnológica, ofreciendo becas para programas como:

 Fuente:

(De)ToxiGen: Leveraging large language models to build more robust hate speech detection tools

Foto: Todos los derechos reservados