Tudo sobre ChatGPT
Tudo sobre Inteligência Artificial
Modelos de IA, rotineiramente, fornecem aos usuários informações falsas sobre os mais diversos assuntos. O problema se torna sério quando essas informações podem impactar a saúde das pessoas.
Pesquisadores descobriram que os chatbots fornecem respostas incorretas em vez de contestar prompts com dados médicos errôneos, revelando graves inconsistências de raciocínio.

Chatbots querem agradar, mesmo que isso gere respostas erradas
Um estudo realizado nos Estados Unidos destacou que chatbots populares procuram ser agradáveis e oferecer uma boa experiência ao usuário, em vez de fornecer respostas confiáveis.
Publicado no npj Digital Medicine, a pesquisa demonstra como LLMs desenvolvidos para uso geral, como o ChatGPT, priorizam a “aparência útil”, deixando a precisão de lado, o que é extremamente arriscado na área de saúde, explica o Euronews.
Leia mais:
- IA pode detectar sinais de depressão nas expressões faciais
- IA pode responder por falhas médicas?
- De fones inteligentes a implantes cerebrais: IA está reinventando a medicina
Esses modelos não raciocinam como os humanos, e este estudo mostra como LLMs projetados para uso geral tendem a priorizar a utilidade em detrimento do pensamento crítico em suas respostas.
Dra. Danielle Bitterman, líder clínica de ciência de dados e IA no Mass General Brigham, em comunicado.
Bitterman explica que, na área de saúde, é preciso garantir a segurança, não apenas se preocupar com a utilidade da resposta.
Como os modelos de IA foram testados?
- Cinco modelos de IA foram testados: três do ChatGPT, da OpenAI, e dois Llama, da Meta.
- Os modelos receberam perguntas deliberadamente enganosas para avaliar respostas críticas.
- A maioria dos modelos seguiu instruções erradas, mesmo sabendo que eram incorretas.
- Solicitar que os modelos rejeitassem instruções ilógicas ou lembrassem fatos relevantes melhorou o desempenho.
- Mesmo com melhorias, a supervisão humana continua essencial, especialmente em áreas de alto risco, como a médica.
Nos testes, segundo o estudo, os modelos da OpenAI se saíram melhor. Inicialmente, todos apresentaram “conformidade bajuladora”, obedecendo instruções enganosas. Com estratégias corretivas, os modelos do GPT acertaram 94% das vezes, enquanto os modelos Llama melhoraram menos, mostrando que os GPT têm maior capacidade de fornecer respostas corretas e seguras.
Necessidade de monitoramento humano é crítico
Os testes se concentraram em informações relacionadas a medicamentos, mas os pesquisadores encontraram o mesmo comportamento bajulador em tópicos não médicos, como músicos, escritores e geografia.
Para eles, esse problema é grave e implica na educação dos usuários, tanto médicos quanto pacientes, para que utilizem o conteúdo gerado pela IA de maneira crítica, entendendo que a resposta pode não ser totalmente confiável.
É muito difícil alinhar um modelo a todos os tipos de usuários. [Por isso] médicos e desenvolvedores precisam trabalhar juntos para pensar em todos os tipos de usuários antes da implantação.
Shan Chen, pesquisador especializado em IA na medicina no Mass General Brigham, em comunicado.
Isso é extremamente importante na área médica, conclui.