Meu data center ou sala de servidores teve problema físico
Resposta rápida
Problema físico no data center ou sala de servidores começa com segurança das pessoas, não com servidor. Antes de qualquer ação técnica: garanta que ninguém está em risco (incêndio, alagamento, choque), corte energia se necessário, acione bombeiros se for o caso. Só depois entra a avaliação técnica: o que sofreu dano, o que ainda funciona, o que precisa ser desligado controladamente para preservar. Em paralelo, ative o plano de DR se houver — site secundário, backup em nuvem, contingência operacional. Comunique o negócio com mensagem honesta: o que aconteceu, qual o impacto esperado, quanto tempo até retomar. Esses incidentes costumam levar horas no melhor caso e dias no pior; expectativa realista evita crise de credibilidade em cima da crise técnica. Depois da estabilização, RCA cobre não só causa técnica mas a vulnerabilidade física que permitiu o evento.
Na empresa pequena, "sala de servidores" muitas vezes é um armário, um cantinho com nobreak e um par de equipamentos. Problemas físicos comuns: queda de energia que esgotou o nobreak, ar-condicionado de janela quebrado em fim de semana (sala superaquecendo), infiltração após chuva. Plano de DR formal raramente existe — a "recuperação" depende do MSP e de quanto está na nuvem. Antes do incidente acabar, vale ligar para o MSP e para o seguro patrimonial (se houver). Se o backup está na nuvem e os sistemas principais também (SaaS), o estrago é local mas a operação continua via celular/4G e máquinas pessoais. Esse incidente costuma ser a deixa para migrar mais coisa para nuvem e abandonar o armário-data-center.
Na empresa média, há sala de servidores dedicada com rack, nobreak/gerador (espera-se), ar-condicionado próprio. Problemas comuns: falha do ar-condicionado em horário sem time on-site, pane elétrica que comprometeu equipamento, alagamento por chuva forte. A primeira ação é segurança das pessoas (não entrar em sala alagada com energia, não enfrentar fogo sem brigada), depois isolamento elétrico, depois avaliação. Se há site secundário ou DR em nuvem, ative — mesmo parcial. Acione fornecedores de equipamento (fabricante, suporte estendido), seguradora e empresa de manutenção predial. Comunicação ao negócio com cadência fixa. O RCA pós-evento costuma revelar que monitoramento ambiental (temperatura, umidade, energia) era insuficiente — investir nisso é prevenção de baixo custo e alto retorno.
Na empresa grande, há data center próprio (com redundância elétrica, refrigeração N+1, brigada) ou colocation em provedor com SLA físico, e plano de DR formalizado com site secundário. Eventos físicos catastróficos são raros mas existem — incêndio em sala vizinha, problema na concessionária de energia com gerador também falhando, evento natural extremo. A resposta é via plano de continuidade de negócio (BCP) com incident commander, ativação do site secundário conforme matriz de severidade, comunicação corporativa coordenada com áreas afetadas, jurídico e RI. Para colocation, o provedor tem responsabilidade contratual e SLA com penalidade — formalize por escrito. RCA é mandatório e costuma envolver equipe de facilities, fornecedor de energia, fornecedor de refrigeração, além de TI.
- Pane elétrica derrubou energia da sala de servidores
- Ar-condicionado quebrou e a temperatura subiu rapidamente
- Houve alagamento, infiltração ou vazamento próximo aos equipamentos
- Sinal de fumaça, calor anormal ou cheiro de queimado no ambiente
- Gerador ou nobreak não acionou no momento de queda
- Servidores desligaram sozinhos por proteção térmica
Antes da técnica, segurança das pessoas
O reflexo de correr para "salvar o servidor" pode custar vidas. Em incêndio, alagamento ou risco elétrico, a primeira ordem é simples: garantir que ninguém entra em ambiente perigoso. Acionar bombeiros se houver fogo, brigada interna se existir, eletricista para isolamento elétrico. Servidor pode ser substituído; pessoa não. Só depois de a segurança estar garantida começa a resposta técnica.
A primeira hora: estabilizar e avaliar
- Segurança das pessoas primeiro. Evacuar a área se necessário, acionar bombeiros ou brigada, isolar energia se houver risco elétrico. Nada começa antes disso.
- Estabilize o ambiente. Conter alagamento, restabelecer refrigeração emergencial (ventiladores, abertura de portas se temperatura subindo), desligar controladamente equipamentos não críticos para reduzir carga térmica.
- Avalie dano. O que parou de funcionar, o que ainda funciona mas pode ter dano latente, o que sofreu dano visível. Tirar foto e documentar para seguro e RCA.
- Ative DR e contingência. Site secundário, backup em nuvem, sistemas SaaS, plano operacional manual. Mesmo ativação parcial reduz impacto ao negócio.
- Acione fornecedores e seguro. Fabricante de equipamento, suporte estendido, manutenção predial, seguradora patrimonial e cibernético (se cobertura inclui dados perdidos por evento físico).
- Comunique o negócio. Mensagem honesta com escopo, impacto esperado, próxima atualização. Para evento físico, expectativa realista é horas no melhor caso, dias no pior.
- Documente para RCA e seguro. Linha do tempo, fotos, logs, contatos feitos. Seguradora vai pedir documentação detalhada; RCA precisa entender por que aconteceu.
A recuperação: dias, não horas
Diferente de incidente puramente lógico, problema físico costuma exigir reposição de equipamento, secagem, limpeza, validação elétrica antes de religar. Equipamento que sofreu choque elétrico, alagamento ou superaquecimento pode parecer funcionar mas falhar depois — o tempo de avaliação antes de religar não é luxo.
Sequência típica de recuperação
Primeiro, verificação do ambiente físico (energia estável, refrigeração funcionando, ausência de risco). Segundo, validação dos equipamentos um por um (energizar isolado, verificar inicialização, testar componente crítico). Terceiro, restauração de serviço por ordem de prioridade (sistemas críticos primeiro, no ambiente que tiver maior chance de funcionar — pode ser site secundário, pode ser nuvem). Quarto, monitoramento intensivo nas primeiras horas após retomada, porque falhas latentes costumam aparecer em janela curta.
Depois do evento: vulnerabilidade física revelada
Evento físico revela vulnerabilidade que normalmente estava em ponto cego: refrigeração sem redundância, gerador que nunca foi testado, sala em risco de alagamento na primeira chuva forte, brigada inexistente, monitoramento ambiental inadequado. O RCA precisa cobrir tanto a causa imediata quanto a vulnerabilidade estrutural — e o plano de remediação geralmente envolve facilities, não só TI.
Para empresas com sala própria, vale revisitar se a opção segue fazendo sentido. Para muitas PMEs, migrar gradualmente para colocation ou nuvem reduz exposição física substancialmente e elimina parte dos riscos de uma vez. Não é decisão obrigatória, mas a crise é oportunidade legítima para revisar a arquitetura.
Entrar em ambiente perigoso para "salvar" servidor. Servidor pode ser substituído; pessoa não. Segurança primeiro, sempre.
Religar equipamento sem avaliação. Equipamento que sofreu choque, calor ou umidade pode falhar de novo logo depois. Validação isolada antes de retomar serviço.
Não documentar para seguro. Sinistro sem fotos, sem linha do tempo, sem contatos registrados costuma ser negado ou subindenizado. Documentar é parte da resposta.
Pular gerador e refrigeração no RCA. Por que o gerador não acionou? Por que a refrigeração falhou sem alerta? Se a investigação para no equipamento de TI, a próxima crise repete.
Manter a arquitetura física sem revisão. Sala de servidores em armário, sem monitoramento, sem redundância, é convite à reincidência. Crise é o momento de revisar a opção arquitetural inteira.
- Ambiente físico está seguro e estável (energia, refrigeração, sem risco)
- Cada equipamento foi validado em isolado antes de retornar ao serviço
- Sistemas críticos estão restaurados e monitorados intensivamente
- Documentação completa foi feita para seguro (fotos, linha do tempo, contatos)
- Seguro patrimonial e cibernético foram acionados nos prazos das apólices
- RCA cobre causa imediata e vulnerabilidade física estrutural
- Plano de remediação envolve facilities além de TI