Acurácia do GPT-4.5 em Diagnósticos por Imagem: Análise Crítica

Acurácia de Modelos de IA (GPT-4.5) em Diagnósticos por Imagem: Análise Comparativa e Evidências

Em meio ao avanço da inteligência artificial aplicada à medicina, relatos recentes apontam que o GPT-4.5 identificou corretamente uma gravidez ectópica em uma imagem de ultrassom, diferentemente de outros modelos concorrentes. Especialistas, como o Dr. Derya Unutmaz e a Dra. Laura Heacock, têm destacado que esse relato anedótico não substitui a necessidade de validação formal e estudos revisados por pares. Estudos e avaliações comparativas, inclusive com dados do NIH, evidenciam as limitações dos LLMs multimodais quando confrontados com imagens médicas complexas.

Desempenho e Evidências Diagnósticas

Em um relato do Dr. Derya Unutmaz, o GPT-4.5 foi capaz de identificar uma gravidez ectópica em uma imagem de ultrassom, enquanto modelos como Grok 3, Claude 3.7 Sonnet e Gemini 2.0 não conseguiram alcançar o mesmo resultado. Apesar do sucesso apresentado, esse caso isolado não constitui uma validação formal e deve ser interpretado com cautela. Especialistas ressaltam que um único relato anedótico não pode assegurar a consistência e confiabilidade do modelo em diagnósticos por imagem.

Avaliações realizadas por radiologistas apontam que os LLMs multimodais, dentre eles o GPT-4 Vision, continuam apresentando erros significativos em imagens médicas complexas, como mamografias e ultrassons. Em uma avaliação prática, o Grok chegou a interpretar incorretamente uma lesão mamária, classificando-a como calcificações. Esses erros demonstram que, mesmo havendo avanços, os modelos de IA ainda ficam aquém dos algoritmos dedicados à radiologia.

Um estudo do National Institutes of Health, publicado na revista Radiology, testou o GPT-4 Vision em 72 casos clínicos desafiadores, no qual o modelo atingiu apenas 39% de acerto, comparado aos 59% alcançados por radiologistas experientes. Esse resultado evidencia as dificuldades dos sistemas de IA em interpretar corretamente imagens complexas. Tais dados reforçam a importância de utilizar a inteligência artificial apenas como ferramenta de apoio, sempre supervisionada por especialistas.

Comparações Técnicas e Atualizações dos Modelos

Pesquisadores realizaram uma comparação entre o GPT-4V e o Google Gemini Pro Vision em 190 casos de diagnóstico radiológico, obtendo uma acurácia geral de 49% para o GPT-4V e 39% para o Gemini, ambos inferiores aos 61% dos radiologistas. Em análises específicas, o GPT-4V apresentou desempenho superior na radiologia torácica (75%), mas mostrou fragilidade na avaliação de imagem pediátrica (33%), enquanto o Gemini teve melhores resultados na área geniturinária (61%) e desempenho reduzido em casos gastrointestinais (24%). Esses números ressaltam a inconsistência dos modelos de IA em diferentes cenários da radiologia.

O GPT-4.5, lançado no início de 2025, trouxe melhorias em termos de conhecimento factual e capacidades visuais, marcando uma evolução em relação às versões anteriores do GPT. Entretanto, não há estudos revisados por pares que se concentrem especificamente no desempenho do GPT-4.5 em diagnósticos médicos. Evidências mais consistentes estão disponíveis para o GPT-4 + Vision, as quais indicam um potencial promissor, mas também apontam limitações importantes na precisão diagnóstica.

Especialistas destacam que as inovações apresentadas pelo GPT-4.5 não garantem uma superioridade diagnóstica consistente, sendo imprescindível que os resultados sejam confirmados por meio de evidências adicionais. O modelo, apesar de demonstrar habilidade em gerar laudos estruturados e em utilizar a linguagem médica corretamente, ainda necessita de validação formal antes de ser amplamente adotado em ambientes clínicos. Assim, fica claro que, mesmo com avanços tecnológicos, a substituição dos métodos tradicionais de diagnóstico por imagem não está garantida.

Validação, Confiabilidade e Perspectivas Futuras

Os relatos sobre o sucesso do GPT-4.5 no diagnóstico de gravidez ectópica requerem cautela, pois a validação médica é essencial para confirmar a consistência dos resultados obtidos. Especialistas recomendam que o sucesso observado em um caso isolado não seja interpretado como uma melhoria generalizada na acurácia diagnóstica do modelo. Dessa forma, a inteligência artificial deve ser empregada apenas como um apoio complementar, e não como substituto do discernimento clínico.

Fontes confiáveis apontam que, apesar dos avanços, a precisão dos modelos de IA como o GPT-4.5 e outros similares continua limitada quando comparada à expertise dos radiologistas. Análises e comparações demonstram que esses modelos apresentam resultados inconsistentes entre diferentes subespecialidades radiológicas e contextos clínicos. Essa realidade reforça a necessidade de uma supervisão médica rigorosa e de avaliações contínuas dos sistemas de inteligência artificial.

A evolução dos diagnósticos por imagem utilizando IA depende significativamente da realização de estudos robustos e da validação contínua de seus modelos. A integração segura e efetiva da inteligência artificial na prática clínica passa pela colaboração entre radiologistas e especialistas em tecnologia, garantindo que os avanços não comprometam a precisão diagnóstica. Com isso, as perspectivas futuras se direcionam para o aprimoramento dos sistemas de IA, que deverão atuar como complemento valioso aos métodos consagrados, promovendo melhorias significativas nos cuidados clínicos.

Em síntese, as evidências indicam que, embora o GPT-4.5 e modelos similares apresentem avanços notáveis em diagnósticos por imagem, sua precisão permanece abaixo dos padrões dos diagnósticos realizados por radiologistas experientes. O relato anedótico e os estudos comparativos ressaltam a necessidade de evidências adicionais para validar as capacidades desses sistemas de IA. Assim, as tecnologias atuais devem ser encaradas como ferramentas de apoio, sem substituir os métodos tradicionais de diagnóstico.

A análise comparativa entre diversos modelos demonstra que, mesmo com inovações, os sistemas de IA ainda apresentam inconsistências importantes. Os resultados dos estudos indicam que apenas com supervisão especializada e validação contínua é possível aprimorar o desempenho desses modelos na prática clínica. A combinação de tecnologia e expertise humana continua sendo indispensável para garantir a segurança e a eficácia nos diagnósticos por imagem.

O futuro da inteligência artificial aplicada à área médica depende do aprimoramento contínuo dos modelos e do rigor científico nas avaliações. A colaboração entre médicos e especialistas em dados deverá orientar o desenvolvimento de ferramentas que, além de inovadoras, sejam comprovadamente seguras e precisas. Dessa forma, a integração da IA como apoio complementar poderá contribuir significativamente para a evolução dos diagnósticos e do atendimento clínico.

Fonte: Dr. Derya Unutmaz e Dra. Laura Heacock. “Acurácia de Modelos de IA em Diagnósticos por Imagem”. Disponível em: https://www.radiology.org