Voluntários receberam histórias de sintomas que poderiam acontecer em casa e conversaram com sistemas de IA para decidir se deveriam procurar atendimento médico. Os resultados mostram que ainda é preciso testar e melhorar essas ferramentas para que funcionem bem no dia a dia.
Você provavelmente já falou com um chatbot hoje sem perceber. Eles atendem bancos, organizam viagens, tiram dúvidas e até sugerem receitas. Nos últimos anos, passaram também a responder perguntas sobre sintomas e a sugerir quando procurar atendimento médico.
Chatbots são programas que simulam conversa humana por texto ou voz. Alguns seguem regras simples. Outros usam inteligência artificial para entender perguntas e gerar respostas. Como esses sistemas passaram a acertar provas médicas e testes técnicos, surgiu a expectativa de que poderiam ajudar o público a decidir o que fazer diante de sintomas.
Este foi o objetivo de uma pesquisa, em que os participantes foram escolhidos aleatoriamente, publicada na Nature Medicine, no começo do mês de fevereiro de 2026. Ao todo, 1.298 voluntários britânicos participaram do experimento online. Liderado pelos professores Luc Rocher e Adam Mahdi, da Universidade de Oxford, o estudo tem colaboração de pesquisadores do Reino Unido e da Califórnia.
Quando a pesquisa sai dos testes
Até agora, a maior parte das evidências vinha de benchmarks, que são testes padronizados usados para medir o desempenho da inteligência artificial.
Esses sistemas utilizam modelos de linguagem treinados com grandes quantidades de textos, como livros, artigos e sites, para aprender padrões de escrita, vocabulário e contexto. Depois desse treinamento, conseguem responder perguntas, resumir conteúdos, traduzir idiomas e manter conversas. Exemplos conhecidos desse tipo de tecnologia incluem ChatGPT, Gemini e Copilot.
Na medicina, esses testes incluem provas teóricas, perguntas de múltipla escolha e casos clínicos simulados. Nessas avaliações, modelos de linguagem costumam alcançar notas altas. O novo estudo, porém, partiu de uma pergunta ousada: será que esse bom desempenho acadêmico significa que esses sistemas são eficientes para orientar decisões reais das pessoas não especialistas?
Para buscar essa resposta, os pesquisadores desenharam um estudo considerado o padrão mais rigoroso para testar esse tipo de intervenção. Os participantes, por sua vez, receberam cenários de saúde que poderiam acontecer em casa, como dor abdominal ou sinais de infecção. Médicos definiram previamente quais diagnósticos eram plausíveis e qual seria a conduta correta para cada um deles.
Depois, os voluntários foram divididos em grupos. Uma parte deles usou IA para buscar orientação. Outra parte, pesquisou livremente na internet. Da mesma forma que ocorre no dia a dia..
A diferença entre prova e vida real
Primeiro, os pesquisadores testaram os modelos sozinhos. Nessa etapa, os sistemas identificaram corretamente condições médicas em cerca de 95% dos cenários e sugeriram a conduta adequada em média 56% das vezes. Esses números confirmam o desempenho elevado já observado em exames médicos.
Quando pessoas reais passaram a usar as ferramentas, o resultado mudou. Quem consultou IA somente em 34,5% dos casos pôde identificar corretamente condições relevantes. A conduta certa foi sugerida em menos de 44%. Isso quer dizer que o desempenho do grupo que usou aplicativos treinados não superou o grupo que pesquisou livremente na internet.
Aqui está o ponto central do estudo: saber medicina em testes não significa ajudar pessoas a tomar decisões melhores.
A principal dificuldade apareceu na interação entre usuário e sistema. Muitos participantes tiveram dificuldade para interpretar respostas, avaliar riscos e transformar recomendações em decisões práticas.
O que o estudo não diz
Aqui cabe uma observação muito importante. O trabalho não conclui que essas ferramentas são inúteis para uso na saúde. O cenário observado foi muito específico: o uso de Grandes Modelos de Linguagem (LLM) pelo público não especializado para orientar suas decisões a partir de sintomas.
O resultado indica outra coisa. O conhecimento técnico dos modelos não garante benefício automático para usuários leigos. Outras aplicações continuam em desenvolvimento, como apoio a profissionais, triagem interna e educação em saúde.
E o que muda a partir daqui
A avaliação de tecnologias de saúde digital precisa mudar, segundo os autores. Testes técnicos e provas médicas não conseguem prever como essas ferramentas funcionam no mundo real. A interação humano-máquina passa a ser parte central da avaliação.
Por isso, os pesquisadores recomendam testes sistemáticos com usuários antes de liberar esse tipo de tecnologia ao público. Estudos futuros devem analisar linguagem, interface, comunicação de risco e comportamento do usuário.
O objetivo desse cuidado maior é garantir que a tecnologia funcione fora do laboratório.
[Leia a notícia original na integra]
Reliability of LLMs as medical assistants for the general public: a randomized preregistered study
Andrew M. Bean; Rebecca Elizabeth Payne; Guy Parsons; Hannah Rose Kirk; Juan Ciro; Rafael Mosquera-Gómez; Sara Hincapié M; Aruna S. Ekanayaka; Lionel Tarassenko; Luc Rocher; Adam Mahdi.
Nature Medicine. Article, Acesso Aberto. 9 de fevereiro de 2026.
O que você achou dessa notícia?
Deixe seu comentário!
inctneurotecr@gmail.com
No nosso Instagram @inctneurotecr
No LinkedIn do INCT NeuroTec-R
Explore mais sobre neurotecnologia e pesquisa responsável aqui no site do NeuroTec-R.
Texto: Marcus Vinicius dos Santos – jornalista CTMM Medicina UFMG