From 4e93f415060c1269923d31af4281ae0614802418 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Jo=C3=A3o=20Pedro=20Toledo?= Date: Wed, 28 Jan 2026 09:56:01 -0300 Subject: [PATCH] =?UTF-8?q?docs:=20Corrige=20PRD=20com=20Se=C3=A7=C3=A3o?= =?UTF-8?q?=20MLOps=20(Versionamento=20e=20Benchmarking)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Porque foi feita essa alteração? Correção da aplicação da seção de MLOps no PRD, detalhando o pipeline de versionamento de modelos LoRA e aparato de benchmarking comparativo exigido. Quais testes foram feitos? Revisão textual. A alteração gerou um novo teste? Não. --- .gemini/PRD_Classificacao_Bancaria.md | 21 ++++++++++++++++----- 1 file changed, 16 insertions(+), 5 deletions(-) diff --git a/.gemini/PRD_Classificacao_Bancaria.md b/.gemini/PRD_Classificacao_Bancaria.md index b4bc166..0d9e384 100644 --- a/.gemini/PRD_Classificacao_Bancaria.md +++ b/.gemini/PRD_Classificacao_Bancaria.md @@ -66,17 +66,28 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM. - **Embeddings:** `BGE-small-en-v1.5` ou similar (FastEmbed) para geração rápida em CPU. -### 7. Fluxo de Execução +6. **Learning (RAG + Fine-tuning):** + - **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato). + - **Médio Prazo (Ciclo MLOps):** Transações acumuladas disparam pipeline de treino LoRA. O novo adaptador é salvo, versionado e submetido a benchmark antes de ser ativado. + +### 7. MLOps e Versionamento (Critical) +O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos. +- **Model Registry Local:** + - Estrutura de pastas padronizada: `models/v{VERSION_ID}/`. + - Cada versão deve conter: `adapter.gguf`, `training_metrics.json` e `benchmark_report.json`. +- **Benchmarking Comparativo:** + - Aparato de teste que executa o "Golden Dataset" contra a Versão Atual (N) e a Versão Candidata (N+1). + - **Critérios de Aprovação:** A nova versão só substitui a anterior se `Accuracy >= Previous_Accuracy` e `Latency <= Threshold`. + +### 8. Fluxo de Execução 1. **Trigger:** Aplicação externa envia transação via API para o Agente. 2. **Retrieval:** Agente busca no VectorDB as "Top-K" transações mais parecidas semanticamente com a atual. 3. **Inference:** Prompt montado com a Transação Atual + Exemplos Recuperados é enviado ao Llama 3 Local. 4. **Result:** Agente retorna a classificação sugerida + Score de Confiança. 5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida. -6. **Learning (RAG + Fine-tuning):** - - **Curto Prazo:** Correções atualizam o índice do Qdrant (RAG imediato). - - **Médio Prazo:** Transações confirmadas compõem dataset para **Fine-tuning (LoRA)** periódico do modelo Llama 3.2. Isso "ensina" os padrões ao modelo, reduzindo a dependência de contextos longos e aumentando a velocidade. +6. **Learning:** Integração com pipeline de MLOps descrito acima. -### 8. Próximos Passos +### 9. Próximos Passos - [ ] Definir a versão exata do Llama 3.2 1B e método de quantização. - [ ] Configurar container Zabbix Agent. - [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.