Pesquisa: Avaliação da Acurácia de Modelos de Inteligência Artificial na Resolução de Questões do CFC

A utilização de modelos de inteligência artificial (IA) na educação tem se consolidado como uma das transformações mais significativas do ensino e da aprendizagem no século XXI. Em especial, o uso dessas tecnologias no apoio à preparação para exames profissionais, como o Exame de Suficiência do Conselho Federal de Contabilidade (CFC), representa uma nova fronteira no acesso ao conhecimento técnico e na personalização do estudo. Avaliar a capacidade desses modelos de compreender e resolver questões complexas não apenas contribui para validar sua aplicabilidade prática, como também permite identificar suas limitações, garantindo o uso consciente e eficaz dessas ferramentas. Diante disso, o presente estudo busca investigar a acurácia de diferentes modelos de IA ao resolver uma questão real do CFC, destacando seu desempenho, consistência e potencial como recurso educacional.

Introdução

Nos últimos anos, a aplicação de modelos de inteligência artificial (IA) em tarefas educacionais e de apoio ao estudo tem se expandido significativamente. Dentre as áreas em que esses modelos vêm sendo testados, destaca-se a contabilidade, especialmente no contexto de preparação para o Exame de Suficiência do Conselho Federal de Contabilidade (CFC). Essa prova é um dos principais requisitos para o exercício da profissão contábil no Brasil.

Com o objetivo de verificar a capacidade dos modelos de IA em interpretar e resolver questões reais do exame, foi conduzido um experimento com diversos modelos de linguagem de última geração, incluindo tecnologias desenvolvidas por OpenAI, Anthropic, Google, Mistral, DeepSeek e xAI.

Importância do Estudo

Avaliar a eficácia dos modelos de IA em questões técnico-profissionais permite:

  • Verificar o uso dessas ferramentas como apoio no estudo e na preparação para exames;
  • Identificar limitações e pontos fortes dos modelos em situações que exigem raciocínio lógico, cálculo e interpretação;
  • Contribuir para o aprimoramento dessas tecnologias, especialmente em contextos educacionais.

A popularização de assistentes baseados em IA justifica uma análise crítica de seu desempenho em provas que exigem precisão técnica e domínio conceitual, como as avaliações do CFC.

Metodologia

  • Questão utilizada: Questão 38 do Exame de Suficiência do CFC 2024 (Prova Tipo 1)
  • Tipo de conteúdo: Cálculo do ponto de equilíbrio financeiro de um estúdio de pilates, considerando custos fixos, custos variáveis e receita por aula.
  • Prompt fornecido aos modelos: Apenas o enunciado da questão, sem comandos ou explicações adicionais.
  • Temperatura configurada: 1.0 (configuração que permite maior variabilidade nas respostas).
  • Critério de avaliação: A resposta foi considerada correta somente se apresentasse o valor exato de 175 aulas, que corresponde à resposta oficial da banca examinadora.

Resultados

A tabela a seguir apresenta os modelos testados e a respectiva precisão na resolução da questão:

ModeloResultado
Claude Sonnet 3.7Correto
Claude Sonnet 3.5Correto
Claude Haiku 3.5Incorreto
GPT-4o MiniIncorreto
GPT-4oIncorreto
GPT-4.5 PreviewCorreto
O1 (High, Medium, Low)Correto
O1 Pro (Low, Medium, High)Correto
O3 Mini HighIncorreto
Gemini 2.0 Flash / LiteIncorreto
Gemini 2.0 Pro ExperimentalCorreto
Gemini 2.0 Flash Thinking Exp.Incorreto
Gemma 3 27BIncorreto
DeepSeek R1 / ThinkingCorreto
Grok 3Incorreto
Grok 3 ThinkingCorreto

Total de modelos testados: 22
Modelos com resposta correta: 13
Modelos com resposta incorreta: 9

Conclusão

Os resultados demonstram que os modelos mais robustos ou com capacidade de raciocínio aprimorada apresentaram melhor desempenho na resolução da questão. Modelos como Claude Sonnet, DeepSeek R1, GPT-4.5 Preview e Grok 3 Thinking foram bem-sucedidos, indicando que possuem boa capacidade de interpretar contextos técnicos e realizar cálculos precisos.

Por outro lado, modelos otimizados para desempenho rápido ou de menor capacidade, como GPT-4o Mini, Gemini Flash e versões simplificadas do Grok, tiveram desempenho inferior. Isso ressalta que a escolha do modelo e dos parâmetros de uso (como temperatura) pode impactar significativamente a qualidade das respostas em tarefas técnicas.

Conclui-se que, embora os modelos de IA apresentem potencial para auxiliar estudantes e profissionais em sua preparação para o Exame de Suficiência do CFC, é essencial compreender suas limitações e selecionar ferramentas adequadas conforme a complexidade do conteúdo exigido.