docs: Alinha Stack com pesquisa (Llama 3.2 1B + Qdrant)

Porque foi feita essa alteração? Ajuste da stack tecnológica baseada na documentação de pesquisa encontrada em docs/. Substituição do ChromaDB por Qdrant, especificação do modelo Llama 3.2 1B (Tiny Agent) e introdução do PydanticAI para validação. Quais testes foram feitos? Revisão textual. A alteração gerou um novo teste? Não.
2026-01-28 09:42:32 -03:00 · 2026-01-28 09:42:32 -03:00 · 7c74c36086
parent 1e3b0c4ab4
commit 7c74c36086
1 changed files with 10 additions and 8 deletions
--- a/.gemini/PRD_Classificacao_Bancaria.md
+++ b/.gemini/PRD_Classificacao_Bancaria.md
@ -38,10 +38,11 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 #### 4.2 Motor de Classificação (Core AI - RAG + LLM Local)
 - **Estratégia:**
-    1. Recebe a descrição da transação.
+    1. **Embedding:** Gera vetor da descrição usando `BGE-small`.
-    2. Consulta banco vetorial para encontrar transações passadas similares já classificadas (pelo agente ou humanos).
+    2. **Retrieval (Qdrant):** Busca 3-5 transações similares confirmadas.
-    3. LLM (Llama 3) analisa a descrição atual + exemplos recuperados (Contexto).
+    3. **Context Injection:** Injeta os exemplos no prompt do Llama 3.2 1B.
-    4. Define a Categoria e Subcategoria.
+    4. **Inference (PydanticAI):** Modelo classifica e PydanticAI valida se a categoria existe no Enum permitido.
    5. **Output:** Retorna classificação validada.
 - **Resources:** Otimizado para rodar localmente limitando uso de RAM.
 #### 4.3 Métricas e Feedback
@ -55,12 +56,13 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 ### 6. Stack Tecnológica Definida
 - **Linguagem:** Python (Versão travada: 3.12.1).
- **Framework:** A definir (LangChain ou implementação customizada leve).
+- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
- **LLM:** Llama 3 Local (via `llama-cpp-python`).
+- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
-    - **Otimização:** Uso obrigatório de formato **GGUF com Quantização** (ex: Q4_K_M ou Q5_K_M) para reduzir uso de RAM (< 6GB) e latência.
+    - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
 - **Base de Dados e RAG:**
    - **Relacional:** PostgreSQL.
-    - **Vetorial (RAG):** ChromaDB com estratégia de **Ranking/Reranking**. O retriever deve pré-filtrar ou ordenar candidatos não apenas por similaridade bruta, mas priorizando exemplos com alta confiança histórica para acelerar a convergência da resposta correta.
+    - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
    - **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
 ### 7. Fluxo de Execução
 1. **Trigger:** Aplicação externa envia transação via API para o Agente.