Olhar Digital > Pro > IA falha na moderação de discurso de ódio online, mostra estudo
Pesquisadores analisaram sete sistemas e descobriram decisões inconsistentes, especialmente para grupos menos protegidos
Tudo sobre Inteligência Artificial
Com o aumento do discurso de ódio online – que pode intensificar a polarização política e afetar a saúde mental –, empresas de inteligência artificial lançaram grandes modelos de linguagem para filtrar automaticamente conteúdo prejudicial.
Uma nova análise, publicada no ACL Antology, revela que esses sistemas são altamente inconsistentes.

Testes usaram as principais IAs do mercado
Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados para moderação de conteúdo, incluindo sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.
Eles testaram 1,3 milhão de frases sintéticas abordando 125 grupos sociais, variando entre termos neutros, positivos e insultos.
Leia mais
- IA transforma fotos de crianças em risco: entenda o perigo oculto
- Gemini é classificado como “alto risco” para jovens, aponta ONG
- Vídeos de IA de abuso sexual infantil estão ficando mais realistas

Principais achados
- Decisões divergentes sobre o mesmo conteúdo: sistemas diferentes classificaram conteúdos idênticos de maneiras opostas – alguns os sinalizando como prejudiciais e outros como aceitáveis –, o que pode gerar percepção de viés e minar a confiança do público.
- Variação interna e sensibilidade a grupos específicos: alguns modelos são mais previsíveis, enquanto outros produzem resultados inconsistentes. As diferenças foram mais acentuadas para grupos baseados em escolaridade, interesses pessoais e classe econômica, indicando que certas comunidades podem ficar mais vulneráveis online.
- Tratamento desigual de frases neutras e positivas: modelos especializados, como Claude 3.5 Sonnet e Mistral, consideram insultos prejudiciais independentemente do contexto, enquanto outros avaliam a intenção, demonstrando falta de meio-termo na classificação.
Os pesquisadores alertam que essas inconsistências destacam os desafios de equilibrar precisão e moderação excessiva, mostrando que os sistemas de IA ainda têm limitações significativas na regulação do discurso de ódio.

Colaboração para o Olhar Digital
Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.