docs: Corrige PRD com Seção MLOps (Versionamento e Benchmarking)

Porque foi feita essa alteração? Correção da aplicação da seção de MLOps no PRD, detalhando o pipeline de versionamento de modelos LoRA e aparato de benchmarking comparativo exigido. Quais testes foram feitos? Revisão textual. A alteração gerou um novo teste? Não.
2026-01-28 09:56:01 -03:00 · 2026-01-28 09:56:01 -03:00 · 4e93f41506
parent 8a6338b501
commit 4e93f41506
1 changed files with 16 additions and 5 deletions
--- a/.gemini/PRD_Classificacao_Bancaria.md
+++ b/.gemini/PRD_Classificacao_Bancaria.md
@ -66,17 +66,28 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
    - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
    - **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU.

-### 7. Fluxo de Execução
+6. **Learning (RAG + Fine-tuning):** 
+    - **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
+    - **Médio Prazo (Ciclo MLOps):** Transações acumuladas disparam pipeline de treino LoRA. O novo adaptador é salvo, versionado e submetido a benchmark antes de ser ativado.
+
+### 7. MLOps e Versionamento (Critical)
+O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos.
+- **Model Registry Local:**
+    - Estrutura de pastas padronizada: `models/v{VERSION_ID}/`.
+    - Cada versão deve conter: `adapter.gguf`, `training_metrics.json` e `benchmark_report.json`.
+- **Benchmarking Comparativo:**
+    - Aparato de teste que executa o "Golden Dataset" contra a Versão Atual (N) e a Versão Candidata (N+1).
+    - **Critérios de Aprovação:** A nova versão só substitui a anterior se `Accuracy >= Previous_Accuracy` e `Latency <= Threshold`.
+
+### 8. Fluxo de Execução
 1. **Trigger:** Aplicação externa envia transação via API para o Agente.
 2. **Retrieval:** Agente busca no VectorDB as "Top-K" transações mais parecidas semanticamente com a atual.
 3. **Inference:** Prompt montado com a Transação Atual + Exemplos Recuperados é enviado ao Llama 3 Local.
 4. **Result:** Agente retorna a classificação sugerida + Score de Confiança.
 5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
-6. **Learning (RAG + Fine-tuning):** 
-    - **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato).
-    - **Médio Prazo:** Transações confirmadas compõem dataset para **Fine-tuning (LoRA)** periódico do modelo Llama 3.2. Isso "ensina" os padrões ao modelo, reduzindo a dependência de contextos longos e aumentando a velocidade.
+6. **Learning:** Integração com pipeline de MLOps descrito acima.

-### 8. Próximos Passos
+### 9. Próximos Passos
 - [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
 - [ ] Configurar container Zabbix Agent.
 - [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.