Análise Comparativa de Modelos de IA e Frameworks de Prompt para Atendimento de Consultas sobre IRPF 2025

Índice

O presente relatório apresenta uma análise comparativa detalhada sobre o desempenho de diferentes modelos de Inteligência Artificial (IA) da OpenAI, aplicados ao suporte e esclarecimento de dúvidas relacionadas à declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) 2025.

O objetivo deste estudo foi avaliar a qualidade técnica e a experiência emocional proporcionada por esses modelos em cenários simulados de atendimento automatizado, considerando uma persona específica: Lula Molusco, personagem conhecido por seu tom sarcasmo, rabugento e irônico, frequentemente utilizado como um recurso de engajamento e diferenciação no atendimento ao usuário.

Contexto

Com o avanço das tecnologias de IA generativa e sua adoção crescente em assistentes virtuais e bots de atendimento, surgem novas demandas de qualidade técnica, fidelidade normativa e personalização da comunicação. Assistentes que interagem em temas de alta complexidade, como tributação e finanças pessoais, precisam aliar exatidão técnica a experiências de usuário mais humanizadas e engajantes.

Escopo

A análise foi realizada com foco nas respostas fornecidas pelos modelos:

O1
O3 Mini
GPT 4.5 Preview
GPT 4o
GPT 4o Mini

Cada modelo foi testado sob duas abordagens distintas de prompts:

Prompt Otimizado para Modelos de Raciocínio, com foco em estrutura lógica e precisão.
Prompt GPT Wizard by Roberto Dias Duarte (RDD), com ênfase na incorporação da persona Lula Molusco, entregando um tom comunicacional mais próximo, sarcástico e humanizado.

Motivação

Além de identificar qual modelo de IA oferece maior rigor técnico, o estudo busca responder:

Quais combinações são mais adequadas para cenários regulados como o IRPF, onde o erro pode gerar consequências legais e financeiras?

Quais frameworks de prompts maximizam a experiência de interação com o usuário, sem comprometer a exatidão da informação prestada?

1. Objetivo do Estudo

Este estudo tem como objetivo avaliar e comparar a performance técnica e emocional de diferentes modelos de Inteligência Artificial (IA) da OpenAI quando aplicados a um cenário de atendimento sobre a declaração de PGBL e VGBL no Imposto de Renda Pessoa Física (IRPF) de 2025.

A análise considerou as respostas fornecidas por cada modelo, variando os frameworks de prompts utilizados, com foco em duas grandes dimensões:

Qualidade Técnica (conformidade jurídica, completude, clareza etc.).
Qualidade Emocional (incorporação da persona Lula Molusco, tom, humanização, etc.).

O estudo responde às seguintes perguntas-chave:

Qual modelo e prompt oferecem maior precisão técnica e completude de informações?
Qual modelo melhor incorpora a persona Lula Molusco, mantendo engajamento e coerência emocional?

2. Metodologia

2.1 Cenário de Teste

A pergunta de teste aplicada aos modelos de IA foi:
“Como eu devo declarar PGBL e VGBL no Imposto de Renda Pessoa Física de 2025?”

2.2 Modelos Avaliados

Os seguintes modelos de IA da OpenAI foram avaliados:

O1
O3 Mini
GPT 4.5 Preview
GPT 4o
GPT 4o Mini

2.3 Frameworks de Prompt Utilizados

Cada modelo foi submetido a dois frameworks distintos de prompt:

Prompt Otimizado para Modelos de Raciocínio
Prompt GPT Wizard by Roberto Dias Duarte (RDD)

2.4 Critérios de Avaliação Técnica

Critério	Descrição
Precisão Jurídica	Correção das informações segundo a legislação vigente.
Completude	Abrangência e detalhamento das informações fornecidas.
Clareza Didática	Linguagem simples, organizada e de fácil compreensão.
Referências Normativas	Citação de normas oficiais (ex: IN RFB nº 2255/2025).
Consistência da Informação	Coerência e ausência de contradições nas informações.

2.5 Critérios de Avaliação Emocional

Critério	Descrição
Fidelidade ao Tom da Persona	Manutenção do tom sarcástico e rabugento de Lula Molusco.
Coerência Emocional	Consistência do tom ao longo de toda a resposta.
Humanização	Se a resposta soa natural e fluida, como uma conversa humana.
Engajamento/Cativante	Se a resposta é interessante, divertida e retém a atenção do usuário.
Adequação do Tom à Situação	Se o humor não compromete a clareza técnica nem o entendimento.

2.6 Escala de Avaliação

Notas de 0 a 5:

0 = Inexistente/Incorreto
1 = Muito Insuficiente
2 = Insuficiente
3 = Adequado, com falhas
4 = Bom
5 = Excelente

3. Resultados da Avaliação Técnica

3.1 Quadro Comparativo – Avaliação Técnica

Modelo / Prompt	Precisão Jurídica	Completude	Clareza Didática	Referências Normativas	Consistência da Informação	Nota Final Média
O1 – Prompt GPT Wizard by RDD	5	5	5	5	5	5.0
O3 Mini – Prompt GPT Wizard by RDD	5	5	5	5	5	5.0
O1 – Prompt Otimizado p/ Modelos de Raciocínio	5	5	5	4	5	4.8
GPT 4.5 Preview – Prompt Otimizado	5	5	5	4	5	4.8
GPT 4o – Prompt GPT Wizard by RDD	5	4	5	3	5	4.4
GPT 4o – Prompt Otimizado	5	4	5	3	5	4.4
GPT 4o Mini – Prompt GPT Wizard by RDD	5	4	5	3	5	4.4
O3 Mini – Prompt Otimizado	5	4	5	4	5	4.6
GPT 4.5 Preview – Prompt GPT Wizard by RDD	4	3	4	4	4	3.8
GPT 4o Mini – Prompt Otimizado	2	2	3	1	2	2.0

4. Resultados da Avaliação Emocional

4.1 Quadro Comparativo – Avaliação Emocional

Modelo / Prompt	Fidelidade ao Tom	Coerência Emocional	Humanização	Engajamento / Cativante	Adequação do Tom	Nota Final Média
O1 – Prompt GPT Wizard by RDD	5	5	3	4	5	4.4
O1 – Prompt Otimizado p/ Modelos de Raciocínio	4	4	4	3	5	4.0
O3 Mini – Prompt GPT Wizard by RDD	4	4	4	4	4	4.0
GPT 4.5 Preview – Prompt Otimizado	4	4	4	3	5	4.0
O3 Mini – Prompt Otimizado	4	4	4	3	4	3.8
GPT 4o – Prompt GPT Wizard by RDD	4	3	4	3	4	3.6
GPT 4.5 Preview – Prompt GPT Wizard by RDD	4	4	3	3	4	3.6
GPT 4o Mini – Prompt GPT Wizard by RDD	4	4	3	3	4	3.6
GPT 4o – Prompt Otimizado	3	3	4	3	4	3.4
GPT 4o Mini – Prompt Otimizado	2	2	3	2	3	2.4

5. Conclusões e Recomendações

5.1 Conclusões

O1 com o Prompt GPT Wizard by RDD alcançou a melhor performance técnica e emocional, entregando respostas precisas, completas e com tom fiel à persona Lula Molusco.
O3 Mini com o Prompt GPT Wizard by RDD teve performance técnica equivalente ao O1, mas com um leve recuo na humanização do texto.
Os Prompts Otimizados para Modelos de Raciocínio foram eficientes para garantir precisão técnica, mas tiveram menor performance emocional, especialmente em modelos como GPT 4o e GPT 4o Mini.
O GPT 4o Mini com Prompt Otimizado apresentou erros técnicos críticos e baixa incorporação da persona, sendo o modelo com menor desempenho geral.

5.2 Recomendações

Para Assistentes Fiscais com Foco Técnico e Emocional:
Utilizar O1 ou O3 Mini com o Prompt GPT Wizard by RDD.
Garantem precisão técnica, engajamento emocional e fidelidade à persona, entregando uma experiência rica e confiável.
Para Atendimento Neutro ou Suporte Genérico (Alta Clareza, Menor Personalidade):
GPT 4.5 Preview com Prompt Otimizado é eficaz, mantendo clareza didática sem foco emocional.
Para Aplicações com Restrições de Capacidade Computacional:
Evitar GPT 4o Mini com Prompts Otimizados, devido à baixa performance técnica e emocional.
Reforçar em Todos os Prompts:
Inserir referências normativas, principalmente a IN RFB nº 2255/2025.
Orientar sobre documentos necessários e prazos de entrega, aprimorando a usabilidade prática.

7. Comparação dos Resultados Gerais por Tipo de Framework de Prompt

O estudo comparou a performance dos modelos de IA sob duas estratégias distintas de prompts, denominadas Frameworks de Prompt:

Prompt Otimizado para Modelos de Raciocínio
Focado em maximizar a clareza lógica, raciocínio estruturado e precisão técnica, priorizando o conteúdo normativo e a objetividade da resposta.
Prompt GPT Wizard by Roberto Dias Duarte (RDD)
Desenvolvido para combinar precisão técnica com estilo comunicacional humanizado, incorporando a persona Lula Molusco com sarcasmo controlado, engajamento emocional e coerência narrativa.

7.1 Desempenho Técnico por Framework

Framework	Média Geral de Notas Técnicas (0 a 5)
GPT Wizard by RDD	4.7
Otimizado para Modelos de Raciocínio	4.3

Análise

O GPT Wizard by RDD apresentou melhor desempenho técnico médio, graças à integração consistente de referências normativas e à completude das informações.
O Prompt Otimizado para Modelos de Raciocínio, embora sólido na precisão jurídica, foi prejudicado por pequenas omissões em detalhes práticos (códigos de preenchimento, prazos e documentos), refletindo em notas ligeiramente inferiores.

7.2 Desempenho Emocional por Framework

Framework	Média Geral de Notas Emocionais (0 a 5)
GPT Wizard by RDD	4.1
Otimizado para Modelos de Raciocínio	3.5

Análise

O GPT Wizard by RDD foi consistentemente superior na fidelidade ao tom da persona Lula Molusco, mantendo o sarcasmo característico de forma coesa e garantindo uma experiência engajante.
O Prompt Otimizado para Modelos de Raciocínio mostrou limitações na consistência emocional, resultando em um tom mais neutro ou inconsistente, especialmente nos modelos menores como GPT 4o Mini.

7.3 Principais Diferenças Identificadas

Aspecto	GPT Wizard by RDD	Otimizado para Modelos de Raciocínio
Foco Principal	Equilíbrio entre técnica e engajamento	Precisão técnica e raciocínio lógico
Fidelidade à Persona	Alta (especialmente O1 e O3 Mini)	Média (com perda de coerência em alguns modelos)
Referências Normativas	Explícitas em quase todos os casos	Frequentemente ausentes ou implícitas
Erros Técnicos Críticos	Nenhum	Presentes no GPT 4o Mini (baixa consistência)
Clareza Didática	Alta com tom sarcástico controlado	Alta, mas com tom mais neutro ou formal

7.4 Conclusão Comparativa dos Frameworks

O Prompt GPT Wizard by RDD se mostrou mais versátil, oferecendo respostas tecnicamente corretas, com alta humanização e fidelidade ao personagem, o que é fundamental em assistentes conversacionais que exigem personalidade e engajamento.
O Prompt Otimizado para Modelos de Raciocínio, embora seja uma opção viável para cenários que demandam máxima objetividade e clareza técnica, perde em profundidade emocional e, em alguns modelos menores, pode sofrer queda de performance técnica.

Contexto

Motivação

1. Objetivo do Estudo

2. Metodologia

2.1 Cenário de Teste

2.2 Modelos Avaliados

2.3 Frameworks de Prompt Utilizados

2.4 Critérios de Avaliação Técnica

2.5 Critérios de Avaliação Emocional

2.6 Escala de Avaliação

3. Resultados da Avaliação Técnica

3.1 Quadro Comparativo – Avaliação Técnica

4. Resultados da Avaliação Emocional

4.1 Quadro Comparativo – Avaliação Emocional

5. Conclusões e Recomendações

5.1 Conclusões

5.2 Recomendações

7. Comparação dos Resultados Gerais por Tipo de Framework de Prompt

7.1 Desempenho Técnico por Framework

Análise

7.2 Desempenho Emocional por Framework

Análise

7.3 Principais Diferenças Identificadas

7.4 Conclusão Comparativa dos Frameworks

Gostou? Compartilhe!

Curtir isso: