IA falha na moderação de discurso de ódio online, mostra estudo

Olhar Digital > Pro > IA falha na moderação de discurso de ódio online, mostra estudo

Pesquisadores analisaram sete sistemas e descobriram decisões inconsistentes, especialmente para grupos menos protegidos

Imagem: tadamichi/Shutterstock

Inteligência artificial

Tudo sobre Inteligência Artificial

Com o aumento do discurso de ódio online – que pode intensificar a polarização política e afetar a saúde mental –, empresas de inteligência artificial lançaram grandes modelos de linguagem para filtrar automaticamente conteúdo prejudicial.

Uma nova análise, publicada no ACL Antology, revela que esses sistemas são altamente inconsistentes.

inteligencia artificial — *Sistemas de IA tratam conteúdos idênticos de maneira diferente e podem exagerar ou subestimar a moderação dependendo do contexto – Imagem: Anggalih Prasetya/Shutterstock*

Testes usaram as principais IAs do mercado

Pesquisadores da Escola de Comunicação Annenberg realizaram a primeira avaliação comparativa em larga escala de sete modelos de IA usados para moderação de conteúdo, incluindo sistemas da OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective.

Eles testaram 1,3 milhão de frases sintéticas abordando 125 grupos sociais, variando entre termos neutros, positivos e insultos.

Leia mais

inteligência artificial — Estudo que testou IAs percebeu ausência de padrão confiável na moderação de discurso de ódio (Imagem: WANAN YOSSINGKUM/iStock)

Principais achados

Decisões divergentes sobre o mesmo conteúdo: sistemas diferentes classificaram conteúdos idênticos de maneiras opostas – alguns os sinalizando como prejudiciais e outros como aceitáveis –, o que pode gerar percepção de viés e minar a confiança do público.
Variação interna e sensibilidade a grupos específicos: alguns modelos são mais previsíveis, enquanto outros produzem resultados inconsistentes. As diferenças foram mais acentuadas para grupos baseados em escolaridade, interesses pessoais e classe econômica, indicando que certas comunidades podem ficar mais vulneráveis online.
Tratamento desigual de frases neutras e positivas: modelos especializados, como Claude 3.5 Sonnet e Mistral, consideram insultos prejudiciais independentemente do contexto, enquanto outros avaliam a intenção, demonstrando falta de meio-termo na classificação.

Os pesquisadores alertam que essas inconsistências destacam os desafios de equilibrar precisão e moderação excessiva, mostrando que os sistemas de IA ainda têm limitações significativas na regulação do discurso de ódio.

Ilustração sobre interação entre usuários e interfaces com inteligência artificial — Inconsistência de IA deixa comunidades vulneráveis a discurso de ódio (Imagem: LariBat/Shutterstock)

Leandro Costa Criscuolo

Colaboração para o Olhar Digital

Leandro Criscuolo é jornalista formado pela Faculdade Cásper Líbero. Já atuou como copywriter, analista de marketing digital e gestor de redes sociais. Atualmente, escreve para o Olhar Digital.

Layse Ventura

Editor(a) SEO

Layse Ventura é jornalista (Uerj), mestre em Engenharia e Gestão do Conhecimento (Ufsc) e pós-graduada em BI (Conquer). Acumula quase 20 anos de experiência como repórter, copywriter e SEO.

IA falha na moderação de discurso de ódio online, mostra estudo

Testes usaram as principais IAs do mercado

Principais achados

Sobre

Emissão de passaporte está garantida apenas até o fim do mês

Últimas Notícias

Mais Lidas

IA falha na moderação de discurso de ódio online, mostra estudo

Testes usaram as principais IAs do mercado

Principais achados

Como conectar mouse e teclado via Bluetooth no celular Android ou iPhone (iOS)

Uso de cannabis pode prejudicar fertilidade feminina, diz estudo

Sobre

Emissão de passaporte está garantida apenas até o fim do mês

Últimas Notícias

Mais Lidas