docs: Corrige PRD com Seção MLOps (Versionamento e Benchmarking)
Porque foi feita essa alteração? Correção da aplicação da seção de MLOps no PRD, detalhando o pipeline de versionamento de modelos LoRA e aparato de benchmarking comparativo exigido. Quais testes foram feitos? Revisão textual. A alteração gerou um novo teste? Não.
This commit is contained in:
parent
8a6338b501
commit
4e93f41506
|
|
@ -66,17 +66,28 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
|
|||
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
|
||||
- **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.
|
||||
|
||||
### 7. Fluxo de Execução
|
||||
6. **Learning (RAG + Fine-tuning):**
|
||||
- **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
|
||||
- **Médio Prazo (Ciclo MLOps):** Transações acumuladas disparam pipeline de treino LoRA. O novo adaptador é salvo, versionado e submetido a benchmark antes de ser ativado.
|
||||
|
||||
### 7. MLOps e Versionamento (Critical)
|
||||
O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos.
|
||||
- **Model Registry Local:**
|
||||
- Estrutura de pastas padronizada: `models/v{VERSION_ID}/`.
|
||||
- Cada versão deve conter: `adapter.gguf`, `training_metrics.json` e `benchmark_report.json`.
|
||||
- **Benchmarking Comparativo:**
|
||||
- Aparato de teste que executa o "Golden Dataset" contra a Versão Atual (N) e a Versão Candidata (N+1).
|
||||
- **Critérios de Aprovação:** A nova versão só substitui a anterior se `Accuracy >= Previous_Accuracy` e `Latency <= Threshold`.
|
||||
|
||||
### 8. Fluxo de Execução
|
||||
1. **Trigger:** Aplicação externa envia transação via API para o Agente.
|
||||
2. **Retrieval:** Agente busca no VectorDB as "Top-K" transações mais parecidas semanticamente com a atual.
|
||||
3. **Inference:** Prompt montado com a Transação Atual + Exemplos Recuperados é enviado ao Llama 3 Local.
|
||||
4. **Result:** Agente retorna a classificação sugerida + Score de Confiança.
|
||||
5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
|
||||
6. **Learning (RAG + Fine-tuning):**
|
||||
- **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
|
||||
- **Médio Prazo:** Transações confirmadas compõem dataset para **Fine-tuning (LoRA)** periódico do modelo Llama 3.2. Isso "ensina" os padrões ao modelo, reduzindo a dependência de contextos longos e aumentando a velocidade.
|
||||
6. **Learning:** Integração com pipeline de MLOps descrito acima.
|
||||
|
||||
### 8. Próximos Passos
|
||||
### 9. Próximos Passos
|
||||
- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
|
||||
- [ ] Configurar container Zabbix Agent.
|
||||
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
|
||||
|
|
|
|||
Loading…
Reference in New Issue