docs: Alinha Stack com pesquisa (Llama 3.2 1B + Qdrant)

Porque foi feita essa alteração? Ajuste da stack tecnológica baseada na documentação de pesquisa encontrada em docs/. Substituição do ChromaDB por Qdrant, especificação do modelo Llama 3.2 1B (Tiny Agent) e introdução do PydanticAI para validação.
Quais testes foram feitos? Revisão textual.
A alteração gerou um novo teste? Não.
This commit is contained in:
João Pedro Toledo Goncalves 2026-01-28 09:42:32 -03:00
parent 1e3b0c4ab4
commit 7c74c36086
1 changed files with 10 additions and 8 deletions

View File

@ -38,10 +38,11 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
#### 4.2 Motor de Classificação (Core AI - RAG + LLM Local)
- **Estratégia:**
1. Recebe a descrição da transação.
2. Consulta banco vetorial para encontrar transações passadas similares já classificadas (pelo agente ou humanos).
3. LLM (Llama 3) analisa a descrição atual + exemplos recuperados (Contexto).
4. Define a Categoria e Subcategoria.
1. **Embedding:** Gera vetor da descrição usando `BGE-small`.
2. **Retrieval (Qdrant):** Busca 3-5 transações similares confirmadas.
3. **Context Injection:** Injeta os exemplos no prompt do Llama 3.2 1B.
4. **Inference (PydanticAI):** Modelo classifica e PydanticAI valida se a categoria existe no Enum permitido.
5. **Output:** Retorna classificação validada.
- **Resources:** Otimizado para rodar localmente limitando uso de RAM.
#### 4.3 Métricas e Feedback
@ -55,12 +56,13 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
### 6. Stack Tecnológica Definida
- **Linguagem:** Python (Versão travada: 3.12.1).
- **Framework:** A definir (LangChain ou implementação customizada leve).
- **LLM:** Llama 3 Local (via `llama-cpp-python`).
- **Otimização:** Uso obrigatório de formato **GGUF com Quantização** (ex: Q4_K_M ou Q5_K_M) para reduzir uso de RAM (< 6GB) e latência.
- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
- **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
- **Base de Dados e RAG:**
- **Relacional:** PostgreSQL.
- **Vetorial (RAG):** ChromaDB com estratégia de **Ranking/Reranking**. O retriever deve pré-filtrar ou ordenar candidatos não apenas por similaridade bruta, mas priorizando exemplos com alta confiança histórica para acelerar a convergência da resposta correta.
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
- **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
### 7. Fluxo de Execução
1. **Trigger:** Aplicação externa envia transação via API para o Agente.