Pesquisa: Avaliação da Acurácia de Modelos de Inteligência Artificial na Resolução de Questões do CFC

A utilização de modelos de inteligência artificial (IA) na educação tem se consolidado como uma das transformações mais significativas do ensino e da aprendizagem no século XXI. Em especial, o uso dessas tecnologias no apoio à preparação para exames profissionais, como o Exame de Suficiência do Conselho Federal de Contabilidade (CFC), representa uma nova fronteira no acesso ao conhecimento técnico e na personalização do estudo. Avaliar a capacidade desses modelos de compreender e resolver questões complexas não apenas contribui para validar sua aplicabilidade prática, como também permite identificar suas limitações, garantindo o uso consciente e eficaz dessas ferramentas. Diante disso, o presente estudo busca investigar a acurácia de diferentes modelos de IA ao resolver uma questão real do CFC, destacando seu desempenho, consistência e potencial como recurso educacional.

Introdução

Nos últimos anos, a aplicação de modelos de inteligência artificial (IA) em tarefas educacionais e de apoio ao estudo tem se expandido significativamente. Dentre as áreas em que esses modelos vêm sendo testados, destaca-se a contabilidade, especialmente no contexto de preparação para o Exame de Suficiência do Conselho Federal de Contabilidade (CFC). Essa prova é um dos principais requisitos para o exercício da profissão contábil no Brasil.

Com o objetivo de verificar a capacidade dos modelos de IA em interpretar e resolver questões reais do exame, foi conduzido um experimento com diversos modelos de linguagem de última geração, incluindo tecnologias desenvolvidas por OpenAI, Anthropic, Google, Mistral, DeepSeek e xAI.

Importância do Estudo

Avaliar a eficácia dos modelos de IA em questões técnico-profissionais permite:

Verificar o uso dessas ferramentas como apoio no estudo e na preparação para exames;
Identificar limitações e pontos fortes dos modelos em situações que exigem raciocínio lógico, cálculo e interpretação;
Contribuir para o aprimoramento dessas tecnologias, especialmente em contextos educacionais.

A popularização de assistentes baseados em IA justifica uma análise crítica de seu desempenho em provas que exigem precisão técnica e domínio conceitual, como as avaliações do CFC.

Metodologia

Questão utilizada: Questão 38 do Exame de Suficiência do CFC 2024 (Prova Tipo 1)
Tipo de conteúdo: Cálculo do ponto de equilíbrio financeiro de um estúdio de pilates, considerando custos fixos, custos variáveis e receita por aula.
Prompt fornecido aos modelos: Apenas o enunciado da questão, sem comandos ou explicações adicionais.
Temperatura configurada: 1.0 (configuração que permite maior variabilidade nas respostas).
Critério de avaliação: A resposta foi considerada correta somente se apresentasse o valor exato de 175 aulas, que corresponde à resposta oficial da banca examinadora.

Resultados

A tabela a seguir apresenta os modelos testados e a respectiva precisão na resolução da questão:

Modelo	Resultado
Claude Sonnet 3.7	Correto
Claude Sonnet 3.5	Correto
Claude Haiku 3.5	Incorreto
GPT-4o Mini	Incorreto
GPT-4o	Incorreto
GPT-4.5 Preview	Correto
O1 (High, Medium, Low)	Correto
O1 Pro (Low, Medium, High)	Correto
O3 Mini High	Incorreto
Gemini 2.0 Flash / Lite	Incorreto
Gemini 2.0 Pro Experimental	Correto
Gemini 2.0 Flash Thinking Exp.	Incorreto
Gemma 3 27B	Incorreto
DeepSeek R1 / Thinking	Correto
Grok 3	Incorreto
Grok 3 Thinking	Correto

Total de modelos testados: 22
Modelos com resposta correta: 13
Modelos com resposta incorreta: 9

Conclusão

Os resultados demonstram que os modelos mais robustos ou com capacidade de raciocínio aprimorada apresentaram melhor desempenho na resolução da questão. Modelos como Claude Sonnet, DeepSeek R1, GPT-4.5 Preview e Grok 3 Thinking foram bem-sucedidos, indicando que possuem boa capacidade de interpretar contextos técnicos e realizar cálculos precisos.

Por outro lado, modelos otimizados para desempenho rápido ou de menor capacidade, como GPT-4o Mini, Gemini Flash e versões simplificadas do Grok, tiveram desempenho inferior. Isso ressalta que a escolha do modelo e dos parâmetros de uso (como temperatura) pode impactar significativamente a qualidade das respostas em tarefas técnicas.

Conclui-se que, embora os modelos de IA apresentem potencial para auxiliar estudantes e profissionais em sua preparação para o Exame de Suficiência do CFC, é essencial compreender suas limitações e selecionar ferramentas adequadas conforme a complexidade do conteúdo exigido.