A utilização de modelos de inteligência artificial (IA) na educação tem se consolidado como uma das transformações mais significativas do ensino e da aprendizagem no século XXI. Em especial, o uso dessas tecnologias no apoio à preparação para exames profissionais, como o Exame de Suficiência do Conselho Federal de Contabilidade (CFC), representa uma nova fronteira no acesso ao conhecimento técnico e na personalização do estudo. Avaliar a capacidade desses modelos de compreender e resolver questões complexas não apenas contribui para validar sua aplicabilidade prática, como também permite identificar suas limitações, garantindo o uso consciente e eficaz dessas ferramentas. Diante disso, o presente estudo busca investigar a acurácia de diferentes modelos de IA ao resolver uma questão real do CFC, destacando seu desempenho, consistência e potencial como recurso educacional.
Introdução
Nos últimos anos, a aplicação de modelos de inteligência artificial (IA) em tarefas educacionais e de apoio ao estudo tem se expandido significativamente. Dentre as áreas em que esses modelos vêm sendo testados, destaca-se a contabilidade, especialmente no contexto de preparação para o Exame de Suficiência do Conselho Federal de Contabilidade (CFC). Essa prova é um dos principais requisitos para o exercício da profissão contábil no Brasil.
Com o objetivo de verificar a capacidade dos modelos de IA em interpretar e resolver questões reais do exame, foi conduzido um experimento com diversos modelos de linguagem de última geração, incluindo tecnologias desenvolvidas por OpenAI, Anthropic, Google, Mistral, DeepSeek e xAI.
Importância do Estudo
Avaliar a eficácia dos modelos de IA em questões técnico-profissionais permite:
- Verificar o uso dessas ferramentas como apoio no estudo e na preparação para exames;
- Identificar limitações e pontos fortes dos modelos em situações que exigem raciocínio lógico, cálculo e interpretação;
- Contribuir para o aprimoramento dessas tecnologias, especialmente em contextos educacionais.
A popularização de assistentes baseados em IA justifica uma análise crítica de seu desempenho em provas que exigem precisão técnica e domínio conceitual, como as avaliações do CFC.
Metodologia
- Questão utilizada: Questão 38 do Exame de Suficiência do CFC 2024 (Prova Tipo 1)
- Tipo de conteúdo: Cálculo do ponto de equilíbrio financeiro de um estúdio de pilates, considerando custos fixos, custos variáveis e receita por aula.
- Prompt fornecido aos modelos: Apenas o enunciado da questão, sem comandos ou explicações adicionais.
- Temperatura configurada: 1.0 (configuração que permite maior variabilidade nas respostas).
- Critério de avaliação: A resposta foi considerada correta somente se apresentasse o valor exato de 175 aulas, que corresponde à resposta oficial da banca examinadora.
Resultados
A tabela a seguir apresenta os modelos testados e a respectiva precisão na resolução da questão:
Modelo | Resultado |
---|---|
Claude Sonnet 3.7 | Correto |
Claude Sonnet 3.5 | Correto |
Claude Haiku 3.5 | Incorreto |
GPT-4o Mini | Incorreto |
GPT-4o | Incorreto |
GPT-4.5 Preview | Correto |
O1 (High, Medium, Low) | Correto |
O1 Pro (Low, Medium, High) | Correto |
O3 Mini High | Incorreto |
Gemini 2.0 Flash / Lite | Incorreto |
Gemini 2.0 Pro Experimental | Correto |
Gemini 2.0 Flash Thinking Exp. | Incorreto |
Gemma 3 27B | Incorreto |
DeepSeek R1 / Thinking | Correto |
Grok 3 | Incorreto |
Grok 3 Thinking | Correto |
Total de modelos testados: 22
Modelos com resposta correta: 13
Modelos com resposta incorreta: 9
Conclusão
Os resultados demonstram que os modelos mais robustos ou com capacidade de raciocínio aprimorada apresentaram melhor desempenho na resolução da questão. Modelos como Claude Sonnet, DeepSeek R1, GPT-4.5 Preview e Grok 3 Thinking foram bem-sucedidos, indicando que possuem boa capacidade de interpretar contextos técnicos e realizar cálculos precisos.
Por outro lado, modelos otimizados para desempenho rápido ou de menor capacidade, como GPT-4o Mini, Gemini Flash e versões simplificadas do Grok, tiveram desempenho inferior. Isso ressalta que a escolha do modelo e dos parâmetros de uso (como temperatura) pode impactar significativamente a qualidade das respostas em tarefas técnicas.
Conclui-se que, embora os modelos de IA apresentem potencial para auxiliar estudantes e profissionais em sua preparação para o Exame de Suficiência do CFC, é essencial compreender suas limitações e selecionar ferramentas adequadas conforme a complexidade do conteúdo exigido.