diff --git a/.gemini/PRD_Classificacao_Bancaria.md b/.gemini/PRD_Classificacao_Bancaria.md index b4b4dea..cb2b53b 100644 --- a/.gemini/PRD_Classificacao_Bancaria.md +++ b/.gemini/PRD_Classificacao_Bancaria.md @@ -38,10 +38,11 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel #### 4.2 Motor de Classificação (Core AI - RAG + LLM Local) - **Estratégia:** - 1. Recebe a descrição da transação. - 2. Consulta banco vetorial para encontrar transações passadas similares já classificadas (pelo agente ou humanos). - 3. LLM (Llama 3) analisa a descrição atual + exemplos recuperados (Contexto). - 4. Define a Categoria e Subcategoria. + 1. **Embedding:** Gera vetor da descrição usando `BGE-small`. + 2. **Retrieval (Qdrant):** Busca 3-5 transações similares confirmadas. + 3. **Context Injection:** Injeta os exemplos no prompt do Llama 3.2 1B. + 4. **Inference (PydanticAI):** Modelo classifica e PydanticAI valida se a categoria existe no Enum permitido. + 5. **Output:** Retorna classificação validada. - **Resources:** Otimizado para rodar localmente limitando uso de RAM. #### 4.3 Métricas e Feedback @@ -55,12 +56,13 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel ### 6. Stack Tecnológica Definida - **Linguagem:** Python (Versão travada: 3.12.1). -- **Framework:** A definir (LangChain ou implementação customizada leve). -- **LLM:** Llama 3 Local (via `llama-cpp-python`). - - **Otimização:** Uso obrigatório de formato **GGUF com Quantização** (ex: Q4_K_M ou Q5_K_M) para reduzir uso de RAM (< 6GB) e latência. +- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração). +- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4). + - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`. - **Base de Dados e RAG:** - **Relacional:** PostgreSQL. - - **Vetorial (RAG):** ChromaDB com estratégia de **Ranking/Reranking**. O retriever deve pré-filtrar ou ordenar candidatos não apenas por similaridade bruta, mas priorizando exemplos com alta confiança histórica para acelerar a convergência da resposta correta. + - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM. + - **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU. ### 7. Fluxo de Execução 1. **Trigger:** Aplicação externa envia transação via API para o Agente.