docs: Define Llama 3.2 1B Q4_K_M como versão padrão

Porque foi feita essa alteração? Definição da quantização Q4_K_M como a melhor relação custo/benefício (tamanho vs inteligência) para o modelo de 1B, evitando degradação severa de modelos menores (Q2/Q3). Quais testes foram feitos? Não se aplica. A alteração gerou um novo teste? Não.
2026-01-28 10:08:45 -03:00 · 2026-01-28 10:08:45 -03:00 · 9b998b72da
parent 4e93f41506
commit 9b998b72da
1 changed files with 7 additions and 5 deletions
--- a/.gemini/PRD_Classificacao_Bancaria.md
+++ b/.gemini/PRD_Classificacao_Bancaria.md
@ -60,7 +60,10 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 - **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
 - **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas).
 - **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
-    - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
+    - **Otimização:** Uso de **GGUF Q4_K_M** (Recomendado).
+        - *Por que Q4?* Com ~4 bits por peso, o modelo ocupa ~700MB de RAM.
+        - *Por que não menor (Q2/Q3)?* Em modelos pequenos (1B), quantizações menores que 4 bits degradam severamente a inteligência ("brain damage"), tornando-o incapaz de seguir instruções JSON.
+        - *Por que não maior (Q8)?* Ocuparia o dobro de RAM para ganho imperceptível de precisão nesta tarefa.
 - **Base de Dados e RAG:**
    - **Relacional:** PostgreSQL.
    - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
@ -87,7 +90,6 @@ O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos
 5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
 6. **Learning:** Integração com pipeline de MLOps descrito acima.

-### 9. Próximos Passos
- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
- [ ] Configurar container Zabbix Agent.
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
+    - [x] Definir versão exata do Llama 3.2 1B e método de quantização (Q4_K_M) <!-- id: 14 -->
+    - [ ] Configurar container Zabbix Agent.
+    - [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.