diff --git a/.gemini/PRD_Classificacao_Bancaria.md b/.gemini/PRD_Classificacao_Bancaria.md
index 0d9e384..410643a 100644
--- a/.gemini/PRD_Classificacao_Bancaria.md
+++ b/.gemini/PRD_Classificacao_Bancaria.md
@@ -60,7 +60,10 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
 - **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
 - **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas).
 - **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
-    - **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
+    - **Otimização:** Uso de **GGUF Q4_K_M** (Recomendado).
+        - *Por que Q4?* Com ~4 bits por peso, o modelo ocupa ~700MB de RAM.
+        - *Por que não menor (Q2/Q3)?* Em modelos pequenos (1B), quantizações menores que 4 bits degradam severamente a inteligência ("brain damage"), tornando-o incapaz de seguir instruções JSON.
+        - *Por que não maior (Q8)?* Ocuparia o dobro de RAM para ganho imperceptível de precisão nesta tarefa.
 - **Base de Dados e RAG:**
     - **Relacional:** PostgreSQL.
     - **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
@@ -87,7 +90,6 @@ O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos
 5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
 6. **Learning:** Integração com pipeline de MLOps descrito acima.
 
-### 9. Próximos Passos
-- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
-- [ ] Configurar container Zabbix Agent.
-- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
+    - [x] Definir versão exata do Llama 3.2 1B e método de quantização (Q4_K_M) <!-- id: 14 -->
+    - [ ] Configurar container Zabbix Agent.
+    - [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.