diff --git a/.gemini/PRD_Classificacao_Bancaria.md b/.gemini/PRD_Classificacao_Bancaria.md index 0d9e384..410643a 100644 --- a/.gemini/PRD_Classificacao_Bancaria.md +++ b/.gemini/PRD_Classificacao_Bancaria.md @@ -60,7 +60,10 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel - **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração). - **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas). - **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4). - - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`. + - **Otimização:** Uso de **GGUF Q4_K_M** (Recomendado). + - *Por que Q4?* Com ~4 bits por peso, o modelo ocupa ~700MB de RAM. + - *Por que não menor (Q2/Q3)?* Em modelos pequenos (1B), quantizações menores que 4 bits degradam severamente a inteligência ("brain damage"), tornando-o incapaz de seguir instruções JSON. + - *Por que não maior (Q8)?* Ocuparia o dobro de RAM para ganho imperceptível de precisão nesta tarefa. - **Base de Dados e RAG:** - **Relacional:** PostgreSQL. - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM. @@ -87,7 +90,6 @@ O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos 5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida. 6. **Learning:** Integração com pipeline de MLOps descrito acima. -### 9. Próximos Passos -- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização. -- [ ] Configurar container Zabbix Agent. -- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro. + - [x] Definir versão exata do Llama 3.2 1B e método de quantização (Q4_K_M) + - [ ] Configurar container Zabbix Agent. + - [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.