docs: Alinha Stack com pesquisa (Llama 3.2 1B + Qdrant)
Porque foi feita essa alteração? Ajuste da stack tecnológica baseada na documentação de pesquisa encontrada em docs/. Substituição do ChromaDB por Qdrant, especificação do modelo Llama 3.2 1B (Tiny Agent) e introdução do PydanticAI para validação. Quais testes foram feitos? Revisão textual. A alteração gerou um novo teste? Não.
This commit is contained in:
parent
1e3b0c4ab4
commit
7c74c36086
|
|
@ -38,10 +38,11 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
|
||||||
|
|
||||||
#### 4.2 Motor de Classificação (Core AI - RAG + LLM Local)
|
#### 4.2 Motor de Classificação (Core AI - RAG + LLM Local)
|
||||||
- **Estratégia:**
|
- **Estratégia:**
|
||||||
1. Recebe a descrição da transação.
|
1. **Embedding:** Gera vetor da descrição usando `BGE-small`.
|
||||||
2. Consulta banco vetorial para encontrar transações passadas similares já classificadas (pelo agente ou humanos).
|
2. **Retrieval (Qdrant):** Busca 3-5 transações similares confirmadas.
|
||||||
3. LLM (Llama 3) analisa a descrição atual + exemplos recuperados (Contexto).
|
3. **Context Injection:** Injeta os exemplos no prompt do Llama 3.2 1B.
|
||||||
4. Define a Categoria e Subcategoria.
|
4. **Inference (PydanticAI):** Modelo classifica e PydanticAI valida se a categoria existe no Enum permitido.
|
||||||
|
5. **Output:** Retorna classificação validada.
|
||||||
- **Resources:** Otimizado para rodar localmente limitando uso de RAM.
|
- **Resources:** Otimizado para rodar localmente limitando uso de RAM.
|
||||||
|
|
||||||
#### 4.3 Métricas e Feedback
|
#### 4.3 Métricas e Feedback
|
||||||
|
|
@ -55,12 +56,13 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
|
||||||
|
|
||||||
### 6. Stack Tecnológica Definida
|
### 6. Stack Tecnológica Definida
|
||||||
- **Linguagem:** Python (Versão travada: 3.12.1).
|
- **Linguagem:** Python (Versão travada: 3.12.1).
|
||||||
- **Framework:** A definir (LangChain ou implementação customizada leve).
|
- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
|
||||||
- **LLM:** Llama 3 Local (via `llama-cpp-python`).
|
- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
|
||||||
- **Otimização:** Uso obrigatório de formato **GGUF com Quantização** (ex: Q4_K_M ou Q5_K_M) para reduzir uso de RAM (< 6GB) e latência.
|
- **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
|
||||||
- **Base de Dados e RAG:**
|
- **Base de Dados e RAG:**
|
||||||
- **Relacional:** PostgreSQL.
|
- **Relacional:** PostgreSQL.
|
||||||
- **Vetorial (RAG):** ChromaDB com estratégia de **Ranking/Reranking**. O retriever deve pré-filtrar ou ordenar candidatos não apenas por similaridade bruta, mas priorizando exemplos com alta confiança histórica para acelerar a convergência da resposta correta.
|
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
|
||||||
|
- **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
|
||||||
|
|
||||||
### 7. Fluxo de Execução
|
### 7. Fluxo de Execução
|
||||||
1. **Trigger:** Aplicação externa envia transação via API para o Agente.
|
1. **Trigger:** Aplicação externa envia transação via API para o Agente.
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue