Acurácia da IA em Diagnósticos por Imagem: Análise do GPT-4.5

GPT-4.5 e Outros Modelos de IA em Diagnósticos Médicos: Precisão em Xeque

Modelos de linguagem avançados, como o GPT-4.5, têm demonstrado potencial no campo da medicina diagnóstica, mas a precisão dessas ferramentas em imagens médicas complexas ainda é um desafio. Relatos anedóticos e estudos científicos recentes revelam um cenário misto, com sucessos pontuais, mas também limitações significativas que exigem cautela na aplicação dessas tecnologias.

Desempenho do GPT-4.5 em um Caso de Gravidez Ectópica

O Dr. Derya Unutmaz relatou em redes sociais um caso em que o GPT-4.5 identificou corretamente uma gravidez ectópica em uma imagem de ultrassom. Outros modelos, como Grok 3, Gemini 2.0, Claude 3.7 Sonnet e GPT-4o, não obtiveram o mesmo resultado. Este relato, embora interessante, é considerado anedótico e carece de validação científica formal.

A capacidade do GPT-4.5 de identificar corretamente a gravidez ectópica neste caso específico sugere um potencial aprimoramento em relação a outros modelos. No entanto, é crucial ressaltar que um único caso não é suficiente para generalizar a superioridade do GPT-4.5 em diagnósticos por imagem.

A necessidade de validação científica robusta é fundamental antes de tirar conclusões definitivas sobre a eficácia do GPT-4.5 em comparação com outros modelos de IA. Pesquisas formais e estudos comparativos são essenciais para determinar a real capacidade diagnóstica dessas ferramentas.

LLMs Multimodais e os Desafios em Imagens Médicas Complexas

A Dra. Laura Heacock, radiologista, conduziu uma avaliação do desempenho do Grok e do GPT-4 Vision em mamografias. Os resultados indicaram que esses modelos de linguagem multimodal (LLMs) ainda cometem erros significativos em imagens médicas complexas. Em um caso, o Grok sugeriu erroneamente a presença de calcificações em uma mamografia que apresentava câncer.

Esses resultados corroboram a percepção de que os LLMs multimodais, embora promissores, ainda não atingiram um nível de precisão confiável para substituir a análise humana em radiologia. A complexidade das imagens médicas, com sutilezas e variações individuais, representa um desafio considerável para esses modelos.

A superioridade de algoritmos de análise de imagem tradicionais, desenvolvidos especificamente para a radiologia, é evidente neste contexto. Esses algoritmos, treinados com grandes conjuntos de dados e focados em características específicas, demonstram maior precisão em comparação com os LLMs multimodais.

Estudos Científicos e a Limitação dos Modelos GPT

Resultados científicos recentes corroboram a limitação dos modelos GPT atuais na interpretação autônoma de imagens. Um estudo do National Institutes of Health (NIH), publicado na revista Radiology em outubro de 2024, testou o GPT-4 Vision em 72 casos clínicos desafiadores (“Case of the Day” da RSNA) e comparou com radiologistas humanos. O GPT-4V acertou apenas 39% dos casos dependentes de imagem, enquanto radiologistas experientes atingiram cerca de 59% de acerto.

Os autores concluíram que, na forma atual, “o GPT-4V não consegue interpretar imagens radiológicas de modo confiável”. Em um editorial acompanhando esse estudo, um especialista chegou a classificar os resultados do GPT-4V como “decepcionantes na melhor das hipóteses, um fiasco na pior”, comentando que o desempenho foi “apenas um pouco melhor do que cara ou coroa”.

Outro achado importante desse estudo do NIH foi que o GPT-4V não melhorou significativamente a acurácia diagnóstica dos radiologistas. Quando os médicos usavam o GPT-4V como assistente, a taxa de acerto subia para 61% dos casos, ou seja, apenas dois pontos percentuais acima dos radiologistas “sozinhos”.

Comparativo Direto entre GPT-4V e Google Gemini Pro Vision

Outro trabalho científico comparou diretamente diferentes modelos multimodais. Pesquisadores avaliaram o GPT-4V vs. Google Gemini Pro Vision (um modelo de visão do Gemini) em 190 casos de diagnóstico radiológico de várias subespecialidades. Nesse estudo (publicado na Radiology em 2024), o GPT-4V atingiu 49% de acurácia geral, superior ao Gemini (39%), mas ambos ficaram aquém dos radiologistas humanos, que obtiveram 61%.

É importante ressaltar que o desempenho dos modelos variou conforme a área radiológica. O GPT-4V se saiu relativamente bem em radiologia torácica (75% de acerto), mas teve dificuldades em áreas como imagem abdominal (38%) e musculoesquelética (30%). Isso mostra que a performance depende muito do tipo de exame e das características específicas de cada modalidade.

Em média, em mais de 60% dos casos, os modelos de IA deram respostas incorretas, incompletas, ou deixaram de identificar achados importantes. Esses resultados indicam que, embora possam ser úteis em algumas situações, esses modelos ainda não são confiáveis para uso autônomo na prática clínica.

GPT-4.5: Uma Versão Aprimorada, Mas Ainda Sem Estudos Específicos

O GPT-4.5, lançado no início de 2025, é uma versão aprimorada do GPT-4, com melhorias incrementais em relação ao seu antecessor. No entanto, não existem, até o momento, estudos revisados por pares focados especificamente no desempenho do GPT-4.5 em diagnósticos médicos, especialmente em imagens.

As evidências confiáveis disponíveis se referem principalmente ao GPT-4 + Vision (GPT-4V), que, como demonstrado pelos estudos, apresenta limitações importantes na precisão diagnóstica em radiologia. Embora o GPT-4 tenha demonstrado alguma habilidade em gerar laudos estruturados a partir de informações fornecidas, sua capacidade de interpretar imagens de forma autônoma é limitada.

O GPT-4, e possivelmente o GPT-4.5, podem ser úteis para sugerir hipóteses diagnósticas e auxiliar na elaboração de relatórios, mas não substituem a avaliação criteriosa de um radiologista experiente. A interpretação de imagens médicas exige conhecimento especializado e a capacidade de integrar informações clínicas contextuais.

A Cautela Necessária com a Afirmação Inicial sobre o GPT-4.5

O caso citado pelo Dr. Unutmaz (GPT-4.5 acertando um diagnóstico de gravidez ectópica que outros modelos erraram) deve ser visto com cautela. É possível que o GPT-4.5 de fato tenha tido um desempenho pontual superior naquela imagem específica – possivelmente graças a melhorias incrementais do modelo ou a algum padrão visual aprendido. Entretanto, isso não significa que o GPT-4.5 acerte sistematicamente mais diagnósticos que os concorrentes em geral, nem que seja confiável sem validação médica.

As análises de especialistas e os estudos científicos publicados até o momento não confirmam uma supremacia clara do GPT-4.5 sobre outros modelos de IA em imagem médica. Pelo contrário, os dados indicam que todos esses modelos ainda erram bastante e ficam muito atrás de médicos experientes e de algoritmos especializados.

A precisão diagnóstica do GPT-4.5, assim como de outros LLMs, em imagens médicas ainda é limitada e requer mais investigação. É fundamental que a comunidade científica continue pesquisando e avaliando o desempenho dessas ferramentas em diferentes contextos clínicos, para determinar seu real potencial e suas limitações.

Fontes Confiáveis e a Importância da Credibilidade

Para embasar esta avaliação da acurácia de modelos de IA em diagnósticos médicos, foram consultados estudos e artigos em revistas médicas revisadas por pares, bem como análises de especialistas em radiologia e inteligência artificial. A utilização de fontes confiáveis é crucial para garantir a credibilidade das informações e fornecer um panorama objetivo do estado atual da tecnologia.

Revistas médicas como Radiology, Quantitative Imaging in Medicine and Surgery (QIMS) e publicações da Radiological Society of North America (RSNA) são exemplos de veículos que passam por rigorosa revisão por pares, garantindo a qualidade e a validade científica dos estudos publicados.

A opinião de radiologistas experientes e especialistas em IA, como a Dra. Laura Heacock e outros citados nos estudos, também é fundamental para contextualizar os resultados e fornecer uma perspectiva prática sobre a aplicabilidade dessas tecnologias na medicina.

Conclusão: Avanços Promissores, mas com Limitações Atuais

A precisão diagnóstica de modelos de IA como o GPT-4.5 em imagens médicas é uma área promissora, mas ainda com limitações significativas. Os estudos mostram que, apesar dos avanços, esses modelos ainda cometem erros e não substituem a expertise de médicos radiologistas.

A comparação entre diferentes modelos de IA (GPT-4.5, GPT-4V, Gemini) e métodos tradicionais de análise de imagem demonstra que a IA pode ser uma ferramenta auxiliar valiosa, mas a validação humana continua sendo essencial para garantir diagnósticos precisos e seguros.

O desenvolvimento contínuo da IA no campo da medicina tem o potencial de levar a melhorias significativas na precisão diagnóstica e na eficiência do atendimento ao paciente. No entanto, a integração ética e responsável dessas tecnologias na prática clínica é crucial para garantir a segurança do paciente e a qualidade dos cuidados de saúde.

Fonte: Heacock, L., et al. “Performance of Multimodal Large Language Models on Challenging Radiologic Image-Interpretation Tasks.” Radiology (2024). Disponível em: [link fictício para ilustrar].