2.3 KiB
2.3 KiB
Disaster Recovery e Arquitetura
1. Cluster DRS (Distributed Resource Scheduler)
O DRS balanceia carga.
Affinity Rules (Regras de Afinidade)
- VM-VM Affinity: "Mantenha estas VMs juntas" (ex: App e DB para latência baixa).
- VM-VM Anti-Affinity: "Separe estas VMs" (ex: AD Primário e AD Secundário). CRÍTICO para disponibilidade.
- VM-Host Affinity:
- Required (Must): "VM deve rodar neste grupo de hosts". Se os hosts caírem, a VM NÃO liga em outro lugar. Cuidado! Use para licenciamento (ex: Oracle).
- Preferential (Should): "VM deve tentar rodar aqui". Se cair, ela migra. Mais seguro.
2. Planejamento de Capacidade (Sizing)
O N3 deve prever o esgotamento de recursos.
- Commitment: Quanto de vCPU/vRAM foi vendido (criado).
- Usage: Quanto está sendo realmente usado.
- Headroom: Quantas VMs eu ainda consigo ligar?
- Regra de Ouro: Projete o cluster para suportar a falha de 1 Host (N+1). Se você tem 3 hosts e 1 falha, os 2 restantes devem aguentar 100% da carga. Se o uso de RAM passar de 66% (num cluster de 3), você não tem redundância real.
3. Restore de vCenter (VCSA)
Se o vCenter morrer, o cluster continua rodando (HA e vSwitch funcionam), mas você perde gerenciamento (vMotion, criar VMs).
Restore via VAMI
- Monte a ISO do instalador do VCSA numa máquina de admin.
- Rode o instalador > Opção Restore.
- Aponte para o backup de arquivo (File-based Backup) que deve ter sido configurado previamente no VAMI (
https://vcsa-ip:5480). - O processo sobe um novo appliance e injeta a configuração.
4. Host Down Scenarios (Cenários de Falha)
-
Host Isolado (Isolation): O Host perde rede mas continua ligado.
- Configuração de HA "Response for Host Isolation":
- Power Off and Restart VMs: O host desliga as VMs, liberando o lock do disco, para que outros hosts as reiniciem. (Recomendado para iSCSI/NFS).
- Disabled: As VMs continuam rodando no host isolado. Se o storage também caiu para ele, as VMs travam.
- Configuração de HA "Response for Host Isolation":
-
PSOD (Purple Screen of Death): Tela roxa no ESXi.
- Tire foto/screenshot da tela (ou pegue o Core Dump se configurado).
- Anota as mensagens de erro (ex:
LINT1/NMI,PF Exception). - Geralmente é falha de Hardware (RAM/CPU) ou Driver com bug.