docs: Corrige PRD com Seção MLOps (Versionamento e Benchmarking)

Porque foi feita essa alteração? Correção da aplicação da seção de MLOps no PRD, detalhando o pipeline de versionamento de modelos LoRA e aparato de benchmarking comparativo exigido.
Quais testes foram feitos? Revisão textual.
A alteração gerou um novo teste? Não.
This commit is contained in:
João Pedro Toledo Goncalves 2026-01-28 09:56:01 -03:00
parent 8a6338b501
commit 4e93f41506
1 changed files with 16 additions and 5 deletions

View File

@ -66,17 +66,28 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
- **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
### 7. Fluxo de Execução
6. **Learning (RAG + Fine-tuning):**
- **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
- **Médio Prazo (Ciclo MLOps):** Transações acumuladas disparam pipeline de treino LoRA. O novo adaptador é salvo, versionado e submetido a benchmark antes de ser ativado.
### 7. MLOps e Versionamento (Critical)
O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos.
- **Model Registry Local:**
- Estrutura de pastas padronizada: `models/v{VERSION_ID}/`.
- Cada versão deve conter: `adapter.gguf`, `training_metrics.json` e `benchmark_report.json`.
- **Benchmarking Comparativo:**
- Aparato de teste que executa o "Golden Dataset" contra a Versão Atual (N) e a Versão Candidata (N+1).
- **Critérios de Aprovação:** A nova versão só substitui a anterior se `Accuracy >= Previous_Accuracy` e `Latency <= Threshold`.
### 8. Fluxo de Execução
1. **Trigger:** Aplicação externa envia transação via API para o Agente.
2. **Retrieval:** Agente busca no VectorDB as "Top-K" transações mais parecidas semanticamente com a atual.
3. **Inference:** Prompt montado com a Transação Atual + Exemplos Recuperados é enviado ao Llama 3 Local.
4. **Result:** Agente retorna a classificação sugerida + Score de Confiança.
5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
6. **Learning (RAG + Fine-tuning):**
- **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
- **Médio Prazo:** Transações confirmadas compõem dataset para **Fine-tuning (LoRA)** periódico do modelo Llama 3.2. Isso "ensina" os padrões ao modelo, reduzindo a dependência de contextos longos e aumentando a velocidade.
6. **Learning:** Integração com pipeline de MLOps descrito acima.
### 8. Próximos Passos
### 9. Próximos Passos
- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
- [ ] Configurar container Zabbix Agent.
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.