docs: Define Llama 3.2 1B Q4_K_M como versão padrão

Porque foi feita essa alteração? Definição da quantização Q4_K_M como a melhor relação custo/benefício (tamanho vs inteligência) para o modelo de 1B, evitando degradação severa de modelos menores (Q2/Q3).
Quais testes foram feitos? Não se aplica.
A alteração gerou um novo teste? Não.
This commit is contained in:
João Pedro Toledo Goncalves 2026-01-28 10:08:45 -03:00
parent 4e93f41506
commit 9b998b72da
1 changed files with 7 additions and 5 deletions

View File

@ -60,7 +60,10 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
- **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas).
- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
- **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
- **Otimização:** Uso de **GGUF Q4_K_M** (Recomendado).
- *Por que Q4?* Com ~4 bits por peso, o modelo ocupa ~700MB de RAM.
- *Por que não menor (Q2/Q3)?* Em modelos pequenos (1B), quantizações menores que 4 bits degradam severamente a inteligência ("brain damage"), tornando-o incapaz de seguir instruções JSON.
- *Por que não maior (Q8)?* Ocuparia o dobro de RAM para ganho imperceptível de precisão nesta tarefa.
- **Base de Dados e RAG:**
- **Relacional:** PostgreSQL.
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
@ -87,7 +90,6 @@ O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos
5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
6. **Learning:** Integração com pipeline de MLOps descrito acima.
### 9. Próximos Passos
- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
- [ ] Configurar container Zabbix Agent.
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
- [x] Definir versão exata do Llama 3.2 1B e método de quantização (Q4_K_M) <!-- id: 14 -->
- [ ] Configurar container Zabbix Agent.
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.