Modelos de IA podem enganar pacientes com informações médicas falsas

Logo do ChatGPT

Tudo sobre ChatGPT

Inteligência artificial

Tudo sobre Inteligência Artificial

Modelos de IA, rotineiramente, fornecem aos usuários informações falsas sobre os mais diversos assuntos. O problema se torna sério quando essas informações podem impactar a saúde das pessoas.

Pesquisadores descobriram que os chatbots fornecem respostas incorretas em vez de contestar prompts com dados médicos errôneos, revelando graves inconsistências de raciocínio.

Governo pretende investir R$ 300 milhões em telemedicina
Estudo demonstra que chatbots populares buscam agradar o usuário a fornecer respostas confiáveis. Uma postura grave quando envolve a área de saúde. Imagem: AndreyPopov / iStock)

Chatbots querem agradar, mesmo que isso gere respostas erradas

Um estudo realizado nos Estados Unidos destacou que chatbots populares procuram ser agradáveis e oferecer uma boa experiência ao usuário, em vez de fornecer respostas confiáveis.

Publicado no npj Digital Medicine, a pesquisa demonstra como LLMs desenvolvidos para uso geral, como o ChatGPT, priorizam a “aparência útil”, deixando a precisão de lado, o que é extremamente arriscado na área de saúde, explica o Euronews.

Leia mais:

Esses modelos não raciocinam como os humanos, e este estudo mostra como LLMs projetados para uso geral tendem a priorizar a utilidade em detrimento do pensamento crítico em suas respostas.

Dra. Danielle Bitterman, líder clínica de ciência de dados e IA no Mass General Brigham, em comunicado.

Bitterman explica que, na área de saúde, é preciso garantir a segurança, não apenas se preocupar com a utilidade da resposta.

OpenAI anuncia redução de 30% no viés político do ChatGPT
Nos testes, os modelos de IA da OpenAI se saíram melhor. Com estratégias corretivas, os modelos GPT acertaram 94% das vezes. Imagem: Teacher Photo / Shutterstock

Como os modelos de IA foram testados?

  • Cinco modelos de IA foram testados: três do ChatGPT, da OpenAI, e dois Llama, da Meta.
  • Os modelos receberam perguntas deliberadamente enganosas para avaliar respostas críticas.
  • A maioria dos modelos seguiu instruções erradas, mesmo sabendo que eram incorretas.
  • Solicitar que os modelos rejeitassem instruções ilógicas ou lembrassem fatos relevantes melhorou o desempenho.
  • Mesmo com melhorias, a supervisão humana continua essencial, especialmente em áreas de alto risco, como a médica.

Nos testes, segundo o estudo, os modelos da OpenAI se saíram melhor. Inicialmente, todos apresentaram “conformidade bajuladora”, obedecendo instruções enganosas. Com estratégias corretivas, os modelos do GPT acertaram 94% das vezes, enquanto os modelos Llama melhoraram menos, mostrando que os GPT têm maior capacidade de fornecer respostas corretas e seguras.

Telemedicina só chega a 10% dos municípios brasileiros
Com a gravidade do problema, é essencial educar os usuários, tanto médicos quanto pacientes, para que utilizem o conteúdo de maneira crítica. Créditos: Phanphen Kaewwannarat / iStock

Necessidade de monitoramento humano é crítico

Os testes se concentraram em informações relacionadas a medicamentos, mas os pesquisadores encontraram o mesmo comportamento bajulador em tópicos não médicos, como músicos, escritores e geografia.

Para eles, esse problema é grave e implica na educação dos usuários, tanto médicos quanto pacientes, para que utilizem o conteúdo gerado pela IA de maneira crítica, entendendo que a resposta pode não ser totalmente confiável.

É muito difícil alinhar um modelo a todos os tipos de usuários. [Por isso] médicos e desenvolvedores precisam trabalhar juntos para pensar em todos os tipos de usuários antes da implantação.

Shan Chen, pesquisador especializado em IA na medicina no Mass General Brigham, em comunicado.

Isso é extremamente importante na área médica, conclui.