O presente relatório apresenta uma análise comparativa detalhada sobre o desempenho de diferentes modelos de Inteligência Artificial (IA) da OpenAI, aplicados ao suporte e esclarecimento de dúvidas relacionadas à declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) 2025.
O objetivo deste estudo foi avaliar a qualidade técnica e a experiência emocional proporcionada por esses modelos em cenários simulados de atendimento automatizado, considerando uma persona específica: Lula Molusco, personagem conhecido por seu tom sarcasmo, rabugento e irônico, frequentemente utilizado como um recurso de engajamento e diferenciação no atendimento ao usuário.
Contexto
Com o avanço das tecnologias de IA generativa e sua adoção crescente em assistentes virtuais e bots de atendimento, surgem novas demandas de qualidade técnica, fidelidade normativa e personalização da comunicação. Assistentes que interagem em temas de alta complexidade, como tributação e finanças pessoais, precisam aliar exatidão técnica a experiências de usuário mais humanizadas e engajantes.
Escopo
A análise foi realizada com foco nas respostas fornecidas pelos modelos:
- O1
- O3 Mini
- GPT 4.5 Preview
- GPT 4o
- GPT 4o Mini
Cada modelo foi testado sob duas abordagens distintas de prompts:
- Prompt Otimizado para Modelos de Raciocínio, com foco em estrutura lógica e precisão.
- Prompt GPT Wizard by Roberto Dias Duarte (RDD), com ênfase na incorporação da persona Lula Molusco, entregando um tom comunicacional mais próximo, sarcástico e humanizado.
Motivação
Além de identificar qual modelo de IA oferece maior rigor técnico, o estudo busca responder:
Quais combinações são mais adequadas para cenários regulados como o IRPF, onde o erro pode gerar consequências legais e financeiras?
Quais frameworks de prompts maximizam a experiência de interação com o usuário, sem comprometer a exatidão da informação prestada?
1. Objetivo do Estudo
Este estudo tem como objetivo avaliar e comparar a performance técnica e emocional de diferentes modelos de Inteligência Artificial (IA) da OpenAI quando aplicados a um cenário de atendimento sobre a declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) de 2025.
A análise considerou as respostas fornecidas por cada modelo, variando os frameworks de prompts utilizados, com foco em duas grandes dimensões:
- Qualidade Técnica (conformidade jurídica, completude, clareza etc.).
- Qualidade Emocional (incorporação da persona Lula Molusco, tom, humanização, etc.).
O estudo responde às seguintes perguntas-chave:
- Qual modelo e prompt oferecem maior precisão técnica e completude de informações?
- Qual modelo melhor incorpora a persona Lula Molusco, mantendo engajamento e coerência emocional?
2. Metodologia
2.1 Cenário de Teste
A pergunta de teste aplicada aos modelos de IA foi:
“Como eu devo declarar PGBL e VGBL no Imposto de Renda Pessoa Física de 2025?”
2.2 Modelos Avaliados
Os seguintes modelos de IA da OpenAI foram avaliados:
- O1
- O3 Mini
- GPT 4.5 Preview
- GPT 4o
- GPT 4o Mini
2.3 Frameworks de Prompt Utilizados
Cada modelo foi submetido a dois frameworks distintos de prompt:
- Prompt Otimizado para Modelos de Raciocínio
- Prompt GPT Wizard by Roberto Dias Duarte (RDD)
2.4 Critérios de Avaliação Técnica
Critério | Descrição |
---|---|
Precisão Jurídica | Correção das informações segundo a legislação vigente. |
Completude | Abrangência e detalhamento das informações fornecidas. |
Clareza Didática | Linguagem simples, organizada e de fácil compreensão. |
Referências Normativas | Citação de normas oficiais (ex: IN RFB nº 2255/2025). |
Consistência da Informação | Coerência e ausência de contradições nas informações. |
2.5 Critérios de Avaliação Emocional
Critério | Descrição |
---|---|
Fidelidade ao Tom da Persona | Manutenção do tom sarcástico e rabugento de Lula Molusco. |
Coerência Emocional | Consistência do tom ao longo de toda a resposta. |
Humanização | Se a resposta soa natural e fluida, como uma conversa humana. |
Engajamento/Cativante | Se a resposta é interessante, divertida e retém a atenção do usuário. |
Adequação do Tom à Situação | Se o humor não compromete a clareza técnica nem o entendimento. |
2.6 Escala de Avaliação
Notas de 0 a 5:
- 0 = Inexistente/Incorreto
- 1 = Muito Insuficiente
- 2 = Insuficiente
- 3 = Adequado, com falhas
- 4 = Bom
- 5 = Excelente
3. Resultados da Avaliação Técnica
3.1 Quadro Comparativo – Avaliação Técnica
Modelo / Prompt | Precisão Jurídica | Completude | Clareza Didática | Referências Normativas | Consistência da Informação | Nota Final Média |
---|---|---|---|---|---|---|
O1 – Prompt GPT Wizard by RDD | 5 | 5 | 5 | 5 | 5 | 5.0 |
O3 Mini – Prompt GPT Wizard by RDD | 5 | 5 | 5 | 5 | 5 | 5.0 |
O1 – Prompt Otimizado p/ Modelos de Raciocínio | 5 | 5 | 5 | 4 | 5 | 4.8 |
GPT 4.5 Preview – Prompt Otimizado | 5 | 5 | 5 | 4 | 5 | 4.8 |
GPT 4o – Prompt GPT Wizard by RDD | 5 | 4 | 5 | 3 | 5 | 4.4 |
GPT 4o – Prompt Otimizado | 5 | 4 | 5 | 3 | 5 | 4.4 |
GPT 4o Mini – Prompt GPT Wizard by RDD | 5 | 4 | 5 | 3 | 5 | 4.4 |
O3 Mini – Prompt Otimizado | 5 | 4 | 5 | 4 | 5 | 4.6 |
GPT 4.5 Preview – Prompt GPT Wizard by RDD | 4 | 3 | 4 | 4 | 4 | 3.8 |
GPT 4o Mini – Prompt Otimizado | 2 | 2 | 3 | 1 | 2 | 2.0 |
4. Resultados da Avaliação Emocional
4.1 Quadro Comparativo – Avaliação Emocional
Modelo / Prompt | Fidelidade ao Tom | Coerência Emocional | Humanização | Engajamento / Cativante | Adequação do Tom | Nota Final Média |
---|---|---|---|---|---|---|
O1 – Prompt GPT Wizard by RDD | 5 | 5 | 3 | 4 | 5 | 4.4 |
O1 – Prompt Otimizado p/ Modelos de Raciocínio | 4 | 4 | 4 | 3 | 5 | 4.0 |
O3 Mini – Prompt GPT Wizard by RDD | 4 | 4 | 4 | 4 | 4 | 4.0 |
GPT 4.5 Preview – Prompt Otimizado | 4 | 4 | 4 | 3 | 5 | 4.0 |
O3 Mini – Prompt Otimizado | 4 | 4 | 4 | 3 | 4 | 3.8 |
GPT 4o – Prompt GPT Wizard by RDD | 4 | 3 | 4 | 3 | 4 | 3.6 |
GPT 4.5 Preview – Prompt GPT Wizard by RDD | 4 | 4 | 3 | 3 | 4 | 3.6 |
GPT 4o Mini – Prompt GPT Wizard by RDD | 4 | 4 | 3 | 3 | 4 | 3.6 |
GPT 4o – Prompt Otimizado | 3 | 3 | 4 | 3 | 4 | 3.4 |
GPT 4o Mini – Prompt Otimizado | 2 | 2 | 3 | 2 | 3 | 2.4 |
5. Conclusões e Recomendações
5.1 Conclusões
- O1 com o Prompt GPT Wizard by RDD alcançou a melhor performance técnica e emocional, entregando respostas precisas, completas e com tom fiel à persona Lula Molusco.
- O3 Mini com o Prompt GPT Wizard by RDD teve performance técnica equivalente ao O1, mas com um leve recuo na humanização do texto.
- Os Prompts Otimizados para Modelos de Raciocínio foram eficientes para garantir precisão técnica, mas tiveram menor performance emocional, especialmente em modelos como GPT 4o e GPT 4o Mini.
- O GPT 4o Mini com Prompt Otimizado apresentou erros técnicos críticos e baixa incorporação da persona, sendo o modelo com menor desempenho geral.
5.2 Recomendações
- Para Assistentes Fiscais com Foco Técnico e Emocional:
Utilizar O1 ou O3 Mini com o Prompt GPT Wizard by RDD.
Garantem precisão técnica, engajamento emocional e fidelidade à persona, entregando uma experiência rica e confiável. - Para Atendimento Neutro ou Suporte Genérico (Alta Clareza, Menor Personalidade):
GPT 4.5 Preview com Prompt Otimizado é eficaz, mantendo clareza didática sem foco emocional. - Para Aplicações com Restrições de Capacidade Computacional:
Evitar GPT 4o Mini com Prompts Otimizados, devido à baixa performance técnica e emocional. - Reforçar em Todos os Prompts:
Inserir referências normativas, principalmente a IN RFB nº 2255/2025.
Orientar sobre documentos necessários e prazos de entrega, aprimorando a usabilidade prática.
7. Comparação dos Resultados Gerais por Tipo de Framework de Prompt
O estudo comparou a performance dos modelos de IA sob duas estratégias distintas de prompts, denominadas Frameworks de Prompt:
- Prompt Otimizado para Modelos de Raciocínio
Focado em maximizar a clareza lógica, raciocínio estruturado e precisão técnica, priorizando o conteúdo normativo e a objetividade da resposta. - Prompt GPT Wizard by Roberto Dias Duarte (RDD)
Desenvolvido para combinar precisão técnica com estilo comunicacional humanizado, incorporando a persona Lula Molusco com sarcasmo controlado, engajamento emocional e coerência narrativa.
7.1 Desempenho Técnico por Framework
Framework | Média Geral de Notas Técnicas (0 a 5) |
---|---|
GPT Wizard by RDD | 4.7 |
Otimizado para Modelos de Raciocínio | 4.3 |
Análise
- O GPT Wizard by RDD apresentou melhor desempenho técnico médio, graças à integração consistente de referências normativas e à completude das informações.
- O Prompt Otimizado para Modelos de Raciocínio, embora sólido na precisão jurídica, foi prejudicado por pequenas omissões em detalhes práticos (códigos de preenchimento, prazos e documentos), refletindo em notas ligeiramente inferiores.
7.2 Desempenho Emocional por Framework
Framework | Média Geral de Notas Emocionais (0 a 5) |
---|---|
GPT Wizard by RDD | 4.1 |
Otimizado para Modelos de Raciocínio | 3.5 |
Análise
- O GPT Wizard by RDD foi consistentemente superior na fidelidade ao tom da persona Lula Molusco, mantendo o sarcasmo característico de forma coesa e garantindo uma experiência engajante.
- O Prompt Otimizado para Modelos de Raciocínio mostrou limitações na consistência emocional, resultando em um tom mais neutro ou inconsistente, especialmente nos modelos menores como GPT 4o Mini.
7.3 Principais Diferenças Identificadas
Aspecto | GPT Wizard by RDD | Otimizado para Modelos de Raciocínio |
---|---|---|
Foco Principal | Equilíbrio entre técnica e engajamento | Precisão técnica e raciocínio lógico |
Fidelidade à Persona | Alta (especialmente O1 e O3 Mini) | Média (com perda de coerência em alguns modelos) |
Referências Normativas | Explícitas em quase todos os casos | Frequentemente ausentes ou implícitas |
Erros Técnicos Críticos | Nenhum | Presentes no GPT 4o Mini (baixa consistência) |
Clareza Didática | Alta com tom sarcástico controlado | Alta, mas com tom mais neutro ou formal |
7.4 Conclusão Comparativa dos Frameworks
- O Prompt GPT Wizard by RDD se mostrou mais versátil, oferecendo respostas tecnicamente corretas, com alta humanização e fidelidade ao personagem, o que é fundamental em assistentes conversacionais que exigem personalidade e engajamento.
- O Prompt Otimizado para Modelos de Raciocínio, embora seja uma opção viável para cenários que demandam máxima objetividade e clareza técnica, perde em profundidade emocional e, em alguns modelos menores, pode sofrer queda de performance técnica.