89 lines
5.0 KiB
Markdown
89 lines
5.0 KiB
Markdown
# 🛡️ Zabbix ITGuys - Gold Collection
|
||
|
||
**Repositório Oficial de Ferramentas e Templates de Monitoramento de Alta Performance.**
|
||
|
||
> *"Um alerta sem contexto é apenas ruído. Um alerta com solução é uma ferramenta."* — Arthur "O Farol" Mendes
|
||
|
||
Este repositório contém a suíte de ferramentas e templates "Gold Standard" desenvolvida pela ITGuys para elevar o nível da observabilidade Zabbix. Aqui focamos em **inteligência acionável**, não apenas em coleta de dados.
|
||
|
||
---
|
||
|
||
## 🏆 O Padrão Arthur (Gold Standard)
|
||
|
||
Todo recurso neste repositório segue rigorosos critérios de qualidade:
|
||
|
||
1. **🇧🇷 Localização Total:** Tudo o que o operador vê (Items, Triggers, Graphs) está em **Português do Brasil (PT-BR)**, claro e profissional.
|
||
2. **🧠 Inteligência Acionável:** Alertas explicam o *motivo*, o *impacto* e a *solução*.
|
||
3. **🔮 Preditividade:** Uso de funções como `timeleft()` e detecção de anomalias para prevenir incidentes antes que ocorram.
|
||
4. **✅ Integridade Técnica:** UUIDs v4 válidos, sem dependências quebradas e sintaxe YAML impecável.
|
||
|
||
---
|
||
|
||
## 🧰 Ferramentas (Toolchain)
|
||
|
||
Scripts em Python desenvolvidos para garantir a integridade e qualidade dos templates.
|
||
|
||
### 1. `validate_zabbix_template.py` (The Gatekeeper)
|
||
O validador definitivo para templates Zabbix (YAML).
|
||
- **Verifica:** Sintaxe YAML, Duplicidade de UUIDs, Referências quebradas (Gráficos -> Itens, Dashboards -> Gráficos).
|
||
- **Garante:** Conformidade estrita com o padrão UUIDv4.
|
||
- **Audita:** Descrições em inglês (aviso) para garantir a tradução.
|
||
|
||
**Uso:**
|
||
```bash
|
||
python validate_zabbix_template.py templates_gold/template_app_pfsense_snmp.yaml
|
||
```
|
||
|
||
### 2. `fix_uuids.py`
|
||
Utilitário para correção em massa e higienização de templates.
|
||
- Remove metadados sujos de versões instáveis (Zabbix 8.0).
|
||
- Regenera UUIDs inválidos mantendo a consistência.
|
||
|
||
### 3. `merge_exchange.py`
|
||
Ferramenta para fundir o melhor de dois mundos: templates oficiais da Zabbix com customizações "Gold" da comunidade.
|
||
|
||
---
|
||
|
||
## 📂 Estrutura do Repositório
|
||
|
||
- **`/templates_gold`**: Templates prontos para produção, validados e traduzidos.
|
||
- *Exemplo:* `template_app_pfsense_snmp.yaml` (Monitoramento completo de pfSense via SNMP com análises de segurança e preditivas).
|
||
- **`/community-templates`**: Fonte upstream de templates diversos.
|
||
- **`/deploy_package`**: Scripts e arquivos para deploy automatizado de agentes e proxies.
|
||
|
||
---
|
||
|
||
## 📢 Criação e Definição de Salas (Telegram)
|
||
|
||
Para evitar a fadiga de alertas e garantir que problemas críticos sejam tratados imediatamente, utilizamos uma estrutura de grupos segmentada por **Severidade** e **Função**.
|
||
|
||
### A Regra de Ouro do MSP (Multi-Cliente)
|
||
Como atendemos múltiplos clientes, não criamos um grupo por cliente. Centralizamos por função e usamos **Tags** no início da mensagem.
|
||
> **Exemplo:** `🔥 [Coca-Cola] Oracle Down` ou `🐘 [Pepsi] Deadlock detectado`
|
||
|
||
### 📋 Tabela de Grupos e Mídias
|
||
|
||
| Canal (Grupo Telegram) | Nível de Severidade / Uso | Objetivo | Retenção Sugerida |
|
||
| :--- | :--- | :--- | :--- |
|
||
| **🌐 iTGuys - Alertas Queda de Link** | 🚨 Disaster (Network only) | **EXCLUSIVO** para quedas de link do Datacenter (Redundância). | Eterna |
|
||
| **🔥 iTGuys - Alertas Criticos** | 🚨 Disaster (Action Required) | Focado em "VOCÊ TEM QUE FAZER ALGUMA COISA AGORA". Incidentes que exigem intervenção humana imediata. Zero ruído. | Eterna |
|
||
| **🔒 iTGuys - Alertas de Segurança** | 🚨 High, 🔥 Warning (SecOps) | Tentativas de invasão, Brute-force RDP/SSH, falhas de login excessivas, portas suspeitas. | Eterna |
|
||
| **🐘 iTGuys - Alertas Banco de Dados** | ⚠️ Warning, 🔥 High (DBA) | Deadlocks, Queries Lentas, Conexões. Centraliza problemas de DB de **todos os clientes**. | 90 Dias |
|
||
| **💾 iTGuys - Alertas Storage** | ⚠️ Warning, 🔥 High (Storage) | Tudo sobre Storage e Discos. Pode conter avisos preventivos, mas é o único lugar para assuntos de armazenamento. | 90 Dias |
|
||
| **♻️ iTGuys - Alertas Backups** | ℹ️ Info, ⚠️ Warning (Backup Jobs) | Exclusivo para jobs e processos de backup (Sucesso/Falha). Ignora status do host (UP/DOWN). | 90 Dias |
|
||
| **👾 Gitea Gerencial** | ⚠️ Warning (KPIs/Management) | Focado em **Gestão e Prazos**. Projetos atrasados, ausência de commits por 7+ dias. (Nada de "push" logs). | 30 Dias |
|
||
| **🃏 Ronald Santoro - Eventos dos Sistemas** | ℹ️ Info, ⚠️ Warning (Default) | **Curinga (Wildcard)**. Se o alerta não se enquadra nas categorias acima, ele cai aqui. | 30 Dias |
|
||
|
||
> **💡 Dica:** Para descobrir o `Chat ID` de um grupo, adicione o bot `@RawDataBot` ao grupo, copie o ID negativo (ex: `-100123456789`) e depois remova o bot.
|
||
|
||
---
|
||
|
||
## ✨ Como Contribuir
|
||
|
||
1. **Valide sempre:** Antes de commitar qualquer template, execute o `validate_zabbix_template.py`.
|
||
2. **Traduza:** Não deixe termos como "Incoming Traffic" ou "Discarded packets". Use "Tráfego de Entrada" e "Pacotes Descartados".
|
||
3. **Contextualize:** Na descrição da trigger, explique o que fazer se o alerta disparar.
|
||
|
||
---
|
||
*Mantido pela equipe de SRE da ITGuys.*
|