Construir ferramentas de detecção de discurso de ódio mais robustas

A Microsoft Research desenvolve ferramentas de moderação capazes de detectar discursos de ódio implícitos contra grupos minoritarios. Estas ferramentas podem ser usadas para os grandes modelos de linguagem (LLM, sigla do termo em inglês). Grandes modelos de linguagem surgiram como uma das áreas de pesquisa mais “quentes” em inteligência artificial nos últimos anos.

Os chamados “grandes modelos de linguagem” (LLMs) são treinados a partir de grandes quantidades de dados provenientes da Internet. Este sistema é capaz de gerar linguagem inadequada e prejudicial, a partir das palavras que recebem pelas redes.

Como alternativa, foram criadas ferramentas de moderação de conteúdo que podem sinalizar ou filtrar as palavras em alguns contextos.

Porém, em alguns conjuntos de dados, a moderação não consegue capturar as complexidades de linguagem potencialmente inapropriada e tóxica, especialmente os discursos de ódio.

Nas provas realizadas se encontram insultos, palavrões e menções explícitas a grupos de identidade minoritaria. Percebe-se também uma dificuldade destas ferramentas em reconhecer referências obscuras ou piadas internas dentro dos discursos de ódio.

Como resultado, as ferramentas podem sinalizar qualquer linguagem que faça referência a um grupo de identidade minoritária como discurso de ódio, mesmo quando essa linguagem for neutra. Alternativamente, as ferramentas treinadas nesses dados não conseguem detectar linguagem prejudicial quando não há insultos conhecidos ou explícitos, palavrões ou menções explícitas a grupos de identidade minoritária.

A Microsoft Research vem desenvolvendo pesquisas para melhorar estas ferramentas de moderação. O estudo “ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection” mostra exemplos de declarações neutras com discursos de ódio a grupos de identidade minoritaria.

Os pesquisadores disponibilizaram um conjunto de dados, ferramentas de moderação de conteúdo treinadas no conjunto de dados, prompts usados ​​como dados iniciais e os códigos-fonte para a abordagem de decodificação adversária proposta no estudo, tudo acessível no repositório do ToxiGen GitHub.

 

A FUNIBER promove estudos na área de tecnologia, oferecendo bolsas de estudo para programas como:

 

Fonte:

(De)ToxiGen: Leveraging large language models to build more robust hate speech detection tools

Foto: Todos os direitos reservados