templates-zabbix-itguys/README.md

5.0 KiB
Raw Blame History

🛡️ Zabbix ITGuys - Gold Collection

Repositório Oficial de Ferramentas e Templates de Monitoramento de Alta Performance.

"Um alerta sem contexto é apenas ruído. Um alerta com solução é uma ferramenta." — Arthur "O Farol" Mendes

Este repositório contém a suíte de ferramentas e templates "Gold Standard" desenvolvida pela ITGuys para elevar o nível da observabilidade Zabbix. Aqui focamos em inteligência acionável, não apenas em coleta de dados.


🏆 O Padrão Arthur (Gold Standard)

Todo recurso neste repositório segue rigorosos critérios de qualidade:

  1. 🇧🇷 Localização Total: Tudo o que o operador vê (Items, Triggers, Graphs) está em Português do Brasil (PT-BR), claro e profissional.
  2. 🧠 Inteligência Acionável: Alertas explicam o motivo, o impacto e a solução.
  3. 🔮 Preditividade: Uso de funções como timeleft() e detecção de anomalias para prevenir incidentes antes que ocorram.
  4. Integridade Técnica: UUIDs v4 válidos, sem dependências quebradas e sintaxe YAML impecável.

🧰 Ferramentas (Toolchain)

Scripts em Python desenvolvidos para garantir a integridade e qualidade dos templates.

1. validate_zabbix_template.py (The Gatekeeper)

O validador definitivo para templates Zabbix (YAML).

  • Verifica: Sintaxe YAML, Duplicidade de UUIDs, Referências quebradas (Gráficos -> Itens, Dashboards -> Gráficos).
  • Garante: Conformidade estrita com o padrão UUIDv4.
  • Audita: Descrições em inglês (aviso) para garantir a tradução.

Uso:

python validate_zabbix_template.py templates_gold/template_app_pfsense_snmp.yaml

2. fix_uuids.py

Utilitário para correção em massa e higienização de templates.

  • Remove metadados sujos de versões instáveis (Zabbix 8.0).
  • Regenera UUIDs inválidos mantendo a consistência.

3. merge_exchange.py

Ferramenta para fundir o melhor de dois mundos: templates oficiais da Zabbix com customizações "Gold" da comunidade.


📂 Estrutura do Repositório

  • /templates_gold: Templates prontos para produção, validados e traduzidos.
    • Exemplo: template_app_pfsense_snmp.yaml (Monitoramento completo de pfSense via SNMP com análises de segurança e preditivas).
  • /community-templates: Fonte upstream de templates diversos.
  • /deploy_package: Scripts e arquivos para deploy automatizado de agentes e proxies.

📢 Criação e Definição de Salas (Telegram)

Para evitar a fadiga de alertas e garantir que problemas críticos sejam tratados imediatamente, utilizamos uma estrutura de grupos segmentada por Severidade e Função.

A Regra de Ouro do MSP (Multi-Cliente)

Como atendemos múltiplos clientes, não criamos um grupo por cliente. Centralizamos por função e usamos Tags no início da mensagem.

Exemplo: 🔥 [Coca-Cola] Oracle Down ou 🐘 [Pepsi] Deadlock detectado

📋 Tabela de Grupos e Mídias

Canal (Grupo Telegram) Nível de Severidade / Uso Objetivo Retenção Sugerida
🌐 iTGuys - Alertas Queda de Link 🚨 Disaster (Network only) EXCLUSIVO para quedas de link do Datacenter (Redundância). Eterna
🔥 iTGuys - Alertas Criticos 🚨 Disaster (Action Required) Focado em "VOCÊ TEM QUE FAZER ALGUMA COISA AGORA". Incidentes que exigem intervenção humana imediata. Zero ruído. Eterna
🔒 iTGuys - Alertas de Segurança 🚨 High, 🔥 Warning (SecOps) Tentativas de invasão, Brute-force RDP/SSH, falhas de login excessivas, portas suspeitas. Eterna
🐘 iTGuys - Alertas Banco de Dados ⚠️ Warning, 🔥 High (DBA) Deadlocks, Queries Lentas, Conexões. Centraliza problemas de DB de todos os clientes. 90 Dias
💾 iTGuys - Alertas Storage ⚠️ Warning, 🔥 High (Storage) Tudo sobre Storage e Discos. Pode conter avisos preventivos, mas é o único lugar para assuntos de armazenamento. 90 Dias
♻️ iTGuys - Alertas Backups Info, ⚠️ Warning (Backup Jobs) Exclusivo para jobs e processos de backup (Sucesso/Falha). Ignora status do host (UP/DOWN). 90 Dias
👾 Gitea Gerencial ⚠️ Warning (KPIs/Management) Focado em Gestão e Prazos. Projetos atrasados, ausência de commits por 7+ dias. (Nada de "push" logs). 30 Dias
🃏 Ronald Santoro - Eventos dos Sistemas Info, ⚠️ Warning (Default) Curinga (Wildcard). Se o alerta não se enquadra nas categorias acima, ele cai aqui. 30 Dias

💡 Dica: Para descobrir o Chat ID de um grupo, adicione o bot @RawDataBot ao grupo, copie o ID negativo (ex: -100123456789) e depois remova o bot.


Como Contribuir

  1. Valide sempre: Antes de commitar qualquer template, execute o validate_zabbix_template.py.
  2. Traduza: Não deixe termos como "Incoming Traffic" ou "Discarded packets". Use "Tráfego de Entrada" e "Pacotes Descartados".
  3. Contextualize: Na descrição da trigger, explique o que fazer se o alerta disparar.

Mantido pela equipe de SRE da ITGuys.