docs: Define Llama 3.2 1B Q4_K_M como versão padrão
Porque foi feita essa alteração? Definição da quantização Q4_K_M como a melhor relação custo/benefício (tamanho vs inteligência) para o modelo de 1B, evitando degradação severa de modelos menores (Q2/Q3). Quais testes foram feitos? Não se aplica. A alteração gerou um novo teste? Não.
This commit is contained in:
parent
4e93f41506
commit
9b998b72da
|
|
@ -60,7 +60,10 @@ Este documento define os requisitos para o desenvolvimento de um Agente de Intel
|
||||||
- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
|
- **Framework:** FastAPI (Exposição) + **PydanticAI** (Validação estrita e Orquestração).
|
||||||
- **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas).
|
- **Observabilidade:** **Langfuse** (Tracing) + **Prometheus/Grafana** (Métricas).
|
||||||
- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
|
- **LLM:** **Llama 3.2 1B Instruct** Local (GGUF Q4).
|
||||||
- **Otimização:** Modelo extremamente leve (< 1GB RAM) rodando via `llama-cpp-python` ou `ollama`.
|
- **Otimização:** Uso de **GGUF Q4_K_M** (Recomendado).
|
||||||
|
- *Por que Q4?* Com ~4 bits por peso, o modelo ocupa ~700MB de RAM.
|
||||||
|
- *Por que não menor (Q2/Q3)?* Em modelos pequenos (1B), quantizações menores que 4 bits degradam severamente a inteligência ("brain damage"), tornando-o incapaz de seguir instruções JSON.
|
||||||
|
- *Por que não maior (Q8)?* Ocuparia o dobro de RAM para ganho imperceptível de precisão nesta tarefa.
|
||||||
- **Base de Dados e RAG:**
|
- **Base de Dados e RAG:**
|
||||||
- **Relacional:** PostgreSQL.
|
- **Relacional:** PostgreSQL.
|
||||||
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
|
- **Vetorial (RAG):** **Qdrant**. Configurado com `on_disk: true` e quantização escalar para economia de RAM.
|
||||||
|
|
@ -87,7 +90,6 @@ O sistema deve garantir a reprodutibilidade e métrica de evolução dos modelos
|
||||||
5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
|
5. **Human Review (Assíncrono):** Através da aplicação principal, o usuário valida.
|
||||||
6. **Learning:** Integração com pipeline de MLOps descrito acima.
|
6. **Learning:** Integração com pipeline de MLOps descrito acima.
|
||||||
|
|
||||||
### 9. Próximos Passos
|
- [x] Definir versão exata do Llama 3.2 1B e método de quantização (Q4_K_M) <!-- id: 14 -->
|
||||||
- [ ] Definir a versão exata do Llama 3.2 1B e método de quantização.
|
|
||||||
- [ ] Configurar container Zabbix Agent.
|
- [ ] Configurar container Zabbix Agent.
|
||||||
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
|
- [ ] Modelar pipeline de exportação de dados para Fine-tuning futuro.
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue