diff --git a/.gemini/PRD_Classificacao_Bancaria.md b/.gemini/PRD_Classificacao_Bancaria.md
index b4b4dea..cb2b53b 100644
--- a/.gemini/PRD_Classificacao_Bancaria.md
+++ b/.gemini/PRD_Classificacao_Bancaria.md
@@ -38,10 +38,11 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 
 #### 4.2 Motor de Classificação (Core AI - RAG + LLM Local)
 - **Estratégia:**
-    1. Recebe a descrição da transação.
-    2. Consulta banco vetorial para encontrar transações passadas similares já classificadas (pelo agente ou humanos).
-    3. LLM (Llama 3) analisa a descrição atual + exemplos recuperados (Contexto).
-    4. Define a Categoria e Subcategoria.
+    1. **Embedding:** Gera vetor da descrição usando `BGE-small`.
+    2. **Retrieval (Qdrant):** Busca 3-5 transações similares confirmadas.
+    3. **Context Injection:** Injeta os exemplos no prompt do Llama 3.2 1B.
+    4. **Inference (PydanticAI):** Modelo classifica e PydanticAI valida se a categoria existe no Enum permitido.
+    5. **Output:** Retorna classificação validada.
 - **Resources:** Otimizado para rodar localmente limitando uso de RAM.
 
 #### 4.3 Métricas e Feedback
@@ -55,12 +56,13 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 
 ### 6. Stack Tecnológica Definida
 - **Linguagem:** Python (Versão travada: 3.12.1).
-- **Framework:** A definir (LangChain ou implementação customizada leve).
-- **LLM:** Llama 3 Local (via `llama-cpp-python`).
-    - **Otimização:** Uso obrigatório de formato **GGUF com Quantização** (ex: Q4_K_M ou Q5_K_M) para reduzir uso de RAM (< 6GB) e latência.
+- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
+- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
+    - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
 - **Base de Dados e RAG:**
     - **Relacional:** PostgreSQL.
-    - **Vetorial (RAG):** ChromaDB com estratégia de **Ranking/Reranking**. O retriever deve pré-filtrar ou ordenar candidatos não apenas por similaridade bruta, mas priorizando exemplos com alta confiança histórica para acelerar a convergência da resposta correta.
+    - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
+    - **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
 
 ### 7. Fluxo de Execução
 1. **Trigger:** Aplicação externa envia transação via API para o Agente.