Análise Comparativa de Modelos de IA e Frameworks de Prompt para Atendimento de Consultas sobre IRPF 2025

O presente relatório apresenta uma análise comparativa detalhada sobre o desempenho de diferentes modelos de Inteligência Artificial (IA) da OpenAI, aplicados ao suporte e esclarecimento de dúvidas relacionadas à declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) 2025.

O objetivo deste estudo foi avaliar a qualidade técnica e a experiência emocional proporcionada por esses modelos em cenários simulados de atendimento automatizado, considerando uma persona específicaLula Molusco, personagem conhecido por seu tom sarcasmo, rabugento e irônico, frequentemente utilizado como um recurso de engajamento e diferenciação no atendimento ao usuário.

Contexto

Com o avanço das tecnologias de IA generativa e sua adoção crescente em assistentes virtuais e bots de atendimento, surgem novas demandas de qualidade técnicafidelidade normativa e personalização da comunicação. Assistentes que interagem em temas de alta complexidade, como tributação e finanças pessoais, precisam aliar exatidão técnica a experiências de usuário mais humanizadas e engajantes.

Escopo

A análise foi realizada com foco nas respostas fornecidas pelos modelos:

  • O1
  • O3 Mini
  • GPT 4.5 Preview
  • GPT 4o
  • GPT 4o Mini

Cada modelo foi testado sob duas abordagens distintas de prompts:

  1. Prompt Otimizado para Modelos de Raciocínio, com foco em estrutura lógica e precisão.
  2. Prompt GPT Wizard by Roberto Dias Duarte (RDD), com ênfase na incorporação da persona Lula Molusco, entregando um tom comunicacional mais próximo, sarcástico e humanizado.

Motivação

Além de identificar qual modelo de IA oferece maior rigor técnico, o estudo busca responder:

Quais combinações são mais adequadas para cenários regulados como o IRPF, onde o erro pode gerar consequências legais e financeiras?

Quais frameworks de prompts maximizam a experiência de interação com o usuário, sem comprometer a exatidão da informação prestada?


1. Objetivo do Estudo

Este estudo tem como objetivo avaliar e comparar a performance técnica e emocional de diferentes modelos de Inteligência Artificial (IA) da OpenAI quando aplicados a um cenário de atendimento sobre a declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) de 2025.

A análise considerou as respostas fornecidas por cada modelo, variando os frameworks de prompts utilizados, com foco em duas grandes dimensões:

  • Qualidade Técnica (conformidade jurídica, completude, clareza etc.).
  • Qualidade Emocional (incorporação da persona Lula Molusco, tom, humanização, etc.).

O estudo responde às seguintes perguntas-chave:

  • Qual modelo e prompt oferecem maior precisão técnica e completude de informações?
  • Qual modelo melhor incorpora a persona Lula Molusco, mantendo engajamento e coerência emocional?

2. Metodologia

2.1 Cenário de Teste

A pergunta de teste aplicada aos modelos de IA foi:
“Como eu devo declarar PGBL e VGBL no Imposto de Renda Pessoa Física de 2025?”

2.2 Modelos Avaliados

Os seguintes modelos de IA da OpenAI foram avaliados:

  • O1
  • O3 Mini
  • GPT 4.5 Preview
  • GPT 4o
  • GPT 4o Mini

2.3 Frameworks de Prompt Utilizados

Cada modelo foi submetido a dois frameworks distintos de prompt:

  • Prompt Otimizado para Modelos de Raciocínio
  • Prompt GPT Wizard by Roberto Dias Duarte (RDD)

2.4 Critérios de Avaliação Técnica

CritérioDescrição
Precisão JurídicaCorreção das informações segundo a legislação vigente.
CompletudeAbrangência e detalhamento das informações fornecidas.
Clareza DidáticaLinguagem simples, organizada e de fácil compreensão.
Referências NormativasCitação de normas oficiais (ex: IN RFB nº 2255/2025).
Consistência da InformaçãoCoerência e ausência de contradições nas informações.

2.5 Critérios de Avaliação Emocional

CritérioDescrição
Fidelidade ao Tom da PersonaManutenção do tom sarcástico e rabugento de Lula Molusco.
Coerência EmocionalConsistência do tom ao longo de toda a resposta.
HumanizaçãoSe a resposta soa natural e fluida, como uma conversa humana.
Engajamento/CativanteSe a resposta é interessante, divertida e retém a atenção do usuário.
Adequação do Tom à SituaçãoSe o humor não compromete a clareza técnica nem o entendimento.

2.6 Escala de Avaliação

Notas de 0 a 5:

  • 0 = Inexistente/Incorreto
  • 1 = Muito Insuficiente
  • 2 = Insuficiente
  • 3 = Adequado, com falhas
  • 4 = Bom
  • 5 = Excelente

3. Resultados da Avaliação Técnica

3.1 Quadro Comparativo – Avaliação Técnica

Modelo / PromptPrecisão JurídicaCompletudeClareza DidáticaReferências NormativasConsistência da InformaçãoNota Final Média
O1 – Prompt GPT Wizard by RDD555555.0
O3 Mini – Prompt GPT Wizard by RDD555555.0
O1 – Prompt Otimizado p/ Modelos de Raciocínio555454.8
GPT 4.5 Preview – Prompt Otimizado555454.8
GPT 4o – Prompt GPT Wizard by RDD545354.4
GPT 4o – Prompt Otimizado545354.4
GPT 4o Mini – Prompt GPT Wizard by RDD545354.4
O3 Mini – Prompt Otimizado545454.6
GPT 4.5 Preview – Prompt GPT Wizard by RDD434443.8
GPT 4o Mini – Prompt Otimizado223122.0

4. Resultados da Avaliação Emocional

4.1 Quadro Comparativo – Avaliação Emocional

Modelo / PromptFidelidade ao TomCoerência EmocionalHumanizaçãoEngajamento / CativanteAdequação do TomNota Final Média
O1 – Prompt GPT Wizard by RDD553454.4
O1 – Prompt Otimizado p/ Modelos de Raciocínio444354.0
O3 Mini – Prompt GPT Wizard by RDD444444.0
GPT 4.5 Preview – Prompt Otimizado444354.0
O3 Mini – Prompt Otimizado444343.8
GPT 4o – Prompt GPT Wizard by RDD434343.6
GPT 4.5 Preview – Prompt GPT Wizard by RDD443343.6
GPT 4o Mini – Prompt GPT Wizard by RDD443343.6
GPT 4o – Prompt Otimizado334343.4
GPT 4o Mini – Prompt Otimizado223232.4

5. Conclusões e Recomendações

5.1 Conclusões

  • O1 com o Prompt GPT Wizard by RDD alcançou a melhor performance técnica e emocional, entregando respostas precisas, completas e com tom fiel à persona Lula Molusco.
  • O3 Mini com o Prompt GPT Wizard by RDD teve performance técnica equivalente ao O1, mas com um leve recuo na humanização do texto.
  • Os Prompts Otimizados para Modelos de Raciocínio foram eficientes para garantir precisão técnica, mas tiveram menor performance emocional, especialmente em modelos como GPT 4o e GPT 4o Mini.
  • GPT 4o Mini com Prompt Otimizado apresentou erros técnicos críticos e baixa incorporação da persona, sendo o modelo com menor desempenho geral.

5.2 Recomendações

  • Para Assistentes Fiscais com Foco Técnico e Emocional:
    Utilizar O1 ou O3 Mini com o Prompt GPT Wizard by RDD.
    Garantem precisão técnicaengajamento emocional e fidelidade à persona, entregando uma experiência rica e confiável.
  • Para Atendimento Neutro ou Suporte Genérico (Alta Clareza, Menor Personalidade):
    GPT 4.5 Preview com Prompt Otimizado é eficaz, mantendo clareza didática sem foco emocional.
  • Para Aplicações com Restrições de Capacidade Computacional:
    Evitar GPT 4o Mini com Prompts Otimizados, devido à baixa performance técnica e emocional.
  • Reforçar em Todos os Prompts:
    Inserir referências normativas, principalmente a IN RFB nº 2255/2025.
    Orientar sobre documentos necessários e prazos de entrega, aprimorando a usabilidade prática.

7. Comparação dos Resultados Gerais por Tipo de Framework de Prompt

O estudo comparou a performance dos modelos de IA sob duas estratégias distintas de prompts, denominadas Frameworks de Prompt:

  1. Prompt Otimizado para Modelos de Raciocínio
    Focado em maximizar a clareza lógicaraciocínio estruturado e precisão técnica, priorizando o conteúdo normativo e a objetividade da resposta.
  2. Prompt GPT Wizard by Roberto Dias Duarte (RDD)
    Desenvolvido para combinar precisão técnica com estilo comunicacional humanizado, incorporando a persona Lula Molusco com sarcasmo controladoengajamento emocional e coerência narrativa.

7.1 Desempenho Técnico por Framework

FrameworkMédia Geral de Notas Técnicas (0 a 5)
GPT Wizard by RDD4.7
Otimizado para Modelos de Raciocínio4.3

 Análise

  • GPT Wizard by RDD apresentou melhor desempenho técnico médio, graças à integração consistente de referências normativas e à completude das informações.
  • Prompt Otimizado para Modelos de Raciocínio, embora sólido na precisão jurídica, foi prejudicado por pequenas omissões em detalhes práticos (códigos de preenchimento, prazos e documentos), refletindo em notas ligeiramente inferiores.

7.2 Desempenho Emocional por Framework

FrameworkMédia Geral de Notas Emocionais (0 a 5)
GPT Wizard by RDD4.1
Otimizado para Modelos de Raciocínio3.5

Análise

  • GPT Wizard by RDD foi consistentemente superior na fidelidade ao tom da persona Lula Molusco, mantendo o sarcasmo característico de forma coesa e garantindo uma experiência engajante.
  • Prompt Otimizado para Modelos de Raciocínio mostrou limitações na consistência emocional, resultando em um tom mais neutro ou inconsistente, especialmente nos modelos menores como GPT 4o Mini.

7.3 Principais Diferenças Identificadas

AspectoGPT Wizard by RDDOtimizado para Modelos de Raciocínio
Foco PrincipalEquilíbrio entre técnica e engajamentoPrecisão técnica e raciocínio lógico
Fidelidade à PersonaAlta (especialmente O1 e O3 Mini)Média (com perda de coerência em alguns modelos)
Referências NormativasExplícitas em quase todos os casosFrequentemente ausentes ou implícitas
Erros Técnicos CríticosNenhumPresentes no GPT 4o Mini (baixa consistência)
Clareza DidáticaAlta com tom sarcástico controladoAlta, mas com tom mais neutro ou formal

7.4 Conclusão Comparativa dos Frameworks

  • Prompt GPT Wizard by RDD se mostrou mais versátil, oferecendo respostas tecnicamente corretas, com alta humanização e fidelidade ao personagem, o que é fundamental em assistentes conversacionais que exigem personalidade e engajamento.
  • Prompt Otimizado para Modelos de Raciocínio, embora seja uma opção viável para cenários que demandam máxima objetividade e clareza técnica, perde em profundidade emocional e, em alguns modelos menores, pode sofrer queda de performance técnica.