Meu data center ou sala de servidores teve problema físico

Pane elétrica, incêndio, alagamento, problema de refrigeração — protocolo de recuperação, ativação de DR, comunicação e plano de mitigação estrutural.

Resposta rápida

Problema físico no data center ou sala de servidores começa com segurança das pessoas, não com servidor. Antes de qualquer ação técnica: garanta que ninguém está em risco (incêndio, alagamento, choque), corte energia se necessário, acione bombeiros se for o caso. Só depois entra a avaliação técnica: o que sofreu dano, o que ainda funciona, o que precisa ser desligado controladamente para preservar. Em paralelo, ative o plano de DR se houver — site secundário, backup em nuvem, contingência operacional. Comunique o negócio com mensagem honesta: o que aconteceu, qual o impacto esperado, quanto tempo até retomar. Esses incidentes costumam levar horas no melhor caso e dias no pior; expectativa realista evita crise de credibilidade em cima da crise técnica. Depois da estabilização, RCA cobre não só causa técnica mas a vulnerabilidade física que permitiu o evento.

Pequena até 50 colaboradores

Na empresa pequena, "sala de servidores" muitas vezes é um armário, um cantinho com nobreak e um par de equipamentos. Problemas físicos comuns: queda de energia que esgotou o nobreak, ar-condicionado de janela quebrado em fim de semana (sala superaquecendo), infiltração após chuva. Plano de DR formal raramente existe — a "recuperação" depende do MSP e de quanto está na nuvem. Antes do incidente acabar, vale ligar para o MSP e para o seguro patrimonial (se houver). Se o backup está na nuvem e os sistemas principais também (SaaS), o estrago é local mas a operação continua via celular/4G e máquinas pessoais. Esse incidente costuma ser a deixa para migrar mais coisa para nuvem e abandonar o armário-data-center.

Média 51–500 colaboradores

Na empresa média, há sala de servidores dedicada com rack, nobreak/gerador (espera-se), ar-condicionado próprio. Problemas comuns: falha do ar-condicionado em horário sem time on-site, pane elétrica que comprometeu equipamento, alagamento por chuva forte. A primeira ação é segurança das pessoas (não entrar em sala alagada com energia, não enfrentar fogo sem brigada), depois isolamento elétrico, depois avaliação. Se há site secundário ou DR em nuvem, ative — mesmo parcial. Acione fornecedores de equipamento (fabricante, suporte estendido), seguradora e empresa de manutenção predial. Comunicação ao negócio com cadência fixa. O RCA pós-evento costuma revelar que monitoramento ambiental (temperatura, umidade, energia) era insuficiente — investir nisso é prevenção de baixo custo e alto retorno.

Grande +500 colaboradores

Na empresa grande, há data center próprio (com redundância elétrica, refrigeração N+1, brigada) ou colocation em provedor com SLA físico, e plano de DR formalizado com site secundário. Eventos físicos catastróficos são raros mas existem — incêndio em sala vizinha, problema na concessionária de energia com gerador também falhando, evento natural extremo. A resposta é via plano de continuidade de negócio (BCP) com incident commander, ativação do site secundário conforme matriz de severidade, comunicação corporativa coordenada com áreas afetadas, jurídico e RI. Para colocation, o provedor tem responsabilidade contratual e SLA com penalidade — formalize por escrito. RCA é mandatório e costuma envolver equipe de facilities, fornecedor de energia, fornecedor de refrigeração, além de TI.

Você está vivendo isso se…
  • Pane elétrica derrubou energia da sala de servidores
  • Ar-condicionado quebrou e a temperatura subiu rapidamente
  • Houve alagamento, infiltração ou vazamento próximo aos equipamentos
  • Sinal de fumaça, calor anormal ou cheiro de queimado no ambiente
  • Gerador ou nobreak não acionou no momento de queda
  • Servidores desligaram sozinhos por proteção térmica

Antes da técnica, segurança das pessoas

O reflexo de correr para "salvar o servidor" pode custar vidas. Em incêndio, alagamento ou risco elétrico, a primeira ordem é simples: garantir que ninguém entra em ambiente perigoso. Acionar bombeiros se houver fogo, brigada interna se existir, eletricista para isolamento elétrico. Servidor pode ser substituído; pessoa não. Só depois de a segurança estar garantida começa a resposta técnica.

A primeira hora: estabilizar e avaliar

Protocolo da primeira hora
  1. Segurança das pessoas primeiro. Evacuar a área se necessário, acionar bombeiros ou brigada, isolar energia se houver risco elétrico. Nada começa antes disso.
  2. Estabilize o ambiente. Conter alagamento, restabelecer refrigeração emergencial (ventiladores, abertura de portas se temperatura subindo), desligar controladamente equipamentos não críticos para reduzir carga térmica.
  3. Avalie dano. O que parou de funcionar, o que ainda funciona mas pode ter dano latente, o que sofreu dano visível. Tirar foto e documentar para seguro e RCA.
  4. Ative DR e contingência. Site secundário, backup em nuvem, sistemas SaaS, plano operacional manual. Mesmo ativação parcial reduz impacto ao negócio.
  5. Acione fornecedores e seguro. Fabricante de equipamento, suporte estendido, manutenção predial, seguradora patrimonial e cibernético (se cobertura inclui dados perdidos por evento físico).
  6. Comunique o negócio. Mensagem honesta com escopo, impacto esperado, próxima atualização. Para evento físico, expectativa realista é horas no melhor caso, dias no pior.
  7. Documente para RCA e seguro. Linha do tempo, fotos, logs, contatos feitos. Seguradora vai pedir documentação detalhada; RCA precisa entender por que aconteceu.

A recuperação: dias, não horas

Diferente de incidente puramente lógico, problema físico costuma exigir reposição de equipamento, secagem, limpeza, validação elétrica antes de religar. Equipamento que sofreu choque elétrico, alagamento ou superaquecimento pode parecer funcionar mas falhar depois — o tempo de avaliação antes de religar não é luxo.

Sequência típica de recuperação

Primeiro, verificação do ambiente físico (energia estável, refrigeração funcionando, ausência de risco). Segundo, validação dos equipamentos um por um (energizar isolado, verificar inicialização, testar componente crítico). Terceiro, restauração de serviço por ordem de prioridade (sistemas críticos primeiro, no ambiente que tiver maior chance de funcionar — pode ser site secundário, pode ser nuvem). Quarto, monitoramento intensivo nas primeiras horas após retomada, porque falhas latentes costumam aparecer em janela curta.

Atenção comum: seguro patrimonial e seguro cibernético são apólices distintas com coberturas diferentes. Evento físico pode ser coberto pelo patrimonial; perda de dados e custo de recuperação às vezes só pelo cibernético; lucros cessantes podem entrar em apólice específica. Avalie cobertura antes de assumir que está coberto, e acione no prazo curto da apólice — atraso pode invalidar.

Depois do evento: vulnerabilidade física revelada

Evento físico revela vulnerabilidade que normalmente estava em ponto cego: refrigeração sem redundância, gerador que nunca foi testado, sala em risco de alagamento na primeira chuva forte, brigada inexistente, monitoramento ambiental inadequado. O RCA precisa cobrir tanto a causa imediata quanto a vulnerabilidade estrutural — e o plano de remediação geralmente envolve facilities, não só TI.

Para empresas com sala própria, vale revisitar se a opção segue fazendo sentido. Para muitas PMEs, migrar gradualmente para colocation ou nuvem reduz exposição física substancialmente e elimina parte dos riscos de uma vez. Não é decisão obrigatória, mas a crise é oportunidade legítima para revisar a arquitetura.

Armadilhas comuns em crise física de data center

Entrar em ambiente perigoso para "salvar" servidor. Servidor pode ser substituído; pessoa não. Segurança primeiro, sempre.

Religar equipamento sem avaliação. Equipamento que sofreu choque, calor ou umidade pode falhar de novo logo depois. Validação isolada antes de retomar serviço.

Não documentar para seguro. Sinistro sem fotos, sem linha do tempo, sem contatos registrados costuma ser negado ou subindenizado. Documentar é parte da resposta.

Pular gerador e refrigeração no RCA. Por que o gerador não acionou? Por que a refrigeração falhou sem alerta? Se a investigação para no equipamento de TI, a próxima crise repete.

Manter a arquitetura física sem revisão. Sala de servidores em armário, sem monitoramento, sem redundância, é convite à reincidência. Crise é o momento de revisar a opção arquitetural inteira.

Antes de declarar a crise encerrada, confira:
  • Ambiente físico está seguro e estável (energia, refrigeração, sem risco)
  • Cada equipamento foi validado em isolado antes de retornar ao serviço
  • Sistemas críticos estão restaurados e monitorados intensivamente
  • Documentação completa foi feita para seguro (fotos, linha do tempo, contatos)
  • Seguro patrimonial e cibernético foram acionados nos prazos das apólices
  • RCA cobre causa imediata e vulnerabilidade física estrutural
  • Plano de remediação envolve facilities além de TI

O que fazer quando há pane elétrica ou incêndio no data center?

Segurança das pessoas primeiro: evacuar se necessário, acionar bombeiros ou brigada interna, isolar energia se houver risco elétrico. Servidor pode ser substituído; pessoa não. Depois estabilize o ambiente (conter alagamento, restabelecer refrigeração emergencial), avalie dano, ative DR ou contingência (site secundário, nuvem, SaaS), acione fornecedores e seguro, comunique o negócio com expectativa honesta e documente tudo para seguro e RCA.

Quanto tempo leva para recuperar de um problema físico no data center?

Horas no melhor caso, dias no pior. Diferente de incidente lógico, problema físico costuma exigir reposição de equipamento, secagem, limpeza e validação elétrica antes de religar. Equipamento que sofreu choque, alagamento ou superaquecimento pode parecer funcionar mas falhar depois — o tempo de avaliação antes de religar não é luxo. Se houver DR ativo (site secundário, nuvem), a operação pode continuar enquanto a recuperação física acontece em paralelo.

Seguro cobre danos a equipamento de TI?

Depende da apólice. Seguro patrimonial costuma cobrir dano físico ao equipamento por evento como incêndio, alagamento, descarga elétrica. Seguro cibernético costuma cobrir perda de dados, custo de recuperação técnica e às vezes lucros cessantes — coberturas diferentes do patrimonial. Apólice específica de lucros cessantes pode entrar para parada operacional. Avalie cobertura concreta da sua apólice antes de assumir, e acione no prazo curto que ela estabelece — atraso pode invalidar a cobertura.

Devo migrar para nuvem ou colocation depois de um evento físico?

É decisão a revisitar com seriedade depois da crise, mas não automática. Colocation ou nuvem reduz exposição física substancialmente — provedor profissional tem redundância de energia, refrigeração, brigada, monitoramento que a maioria das salas próprias não tem. Para muitas PMEs e médias, a migração faz sentido econômica e operacionalmente. Para empresas com requisito de soberania, latência local crítica ou volume que justifique infra própria robusta, manter sala faz sentido — desde que com investimento adequado em facilities.

Como evitar que problemas físicos aconteçam?

Reduzir exposição estrutural e detectar cedo. Estruturalmente: refrigeração com redundância, nobreak dimensionado e testado, gerador com teste mensal real (não apenas partida sem carga), proteção contra alagamento, brigada e plano de evacuação, controle de acesso físico. Detecção: monitoramento ambiental em tempo real (temperatura, umidade, energia, fumaça) com alerta automático para fora do expediente. Investimento em monitoramento ambiental é baixo e o retorno é alto — descobrir refrigeração falhando em domingo às 23h evita superaquecimento que destrói equipamento.