oHub Base TI Estratégia e Governança de TI KPIs de TI

MTTR e MTBF: indicadores de incidentes que TI precisa dominar

O que MTTR e MTBF medem, como coletá-los, como interpretá-los em conjunto e como usá-los para tomar decisões sobre manutenção, redundância e resposta a incidentes.
Atualizado em: 24 de abril de 2026
Neste artigo: Como este tema funciona na sua empresa Por que essas métricas importam em TI MTTR: Medindo velocidade de resposta a incidentes Componentes de MTTR: entendendo o que medir MTBF: Medindo frequência de falhas e confiabilidade Contexto é crítico: entendendo o que significa "bom" MTTR/MTBF Trade-offs: custo de melhorar MTTR vs. MTBF Como melhorar MTTR: ações práticas Como melhorar MTBF: ações práticas Sinais de que sua operação de TI tem MTTR/MTBF ruins Caminhos para melhorar MTTR e MTBF Precisa melhorar confiabilidade de seus sistemas? Perguntas frequentes O que é MTTR em TI? O que é MTBF e por que é importante? Qual é um bom MTTR? Como calcular MTBF de um servidor? Como reduzir MTTR? MTTR e MTBF — qual métrica importa mais? Fontes e referências
Compartilhar:
Este conteúdo foi gerado por IA e pode conter erros. ⚠️ Reportar | 💡 Sugerir artigo

Como este tema funciona na sua empresa

Pequena empresa

Em pequenas empresas, incidentes são exceção. Infraestrutura é simples (server único, backup manual, sem redundância). Quando algo falha, gestor de TI avisa ao sócio e tenta consertar. MTBF é alto (falhas são raras), MTTR é alto (sem resposta 24/7, pode levar horas). Não há monitoramento proativo — usuário avisa quando sistema cai. Lições de incidentes não são documentadas.

Média empresa

Empresas médias começam a medir MTTR/MTBF. Há SLA com negócio: "tempo de resolução de incidente crítico não deve exceder 4 horas." Alguns sistemas têm monitoramento e alertas. Resposta é durante horário comercial (9-18h), não 24/7. Análise pós-incidente é conversada; raiz nem sempre é investigada. MTTR é medido informalmente (baseado em tickets), MTBF é estimado.

Grande empresa

Grandes empresas medem MTTR/MTBF rigorosamente. Há SLAs diferentes por criticidade: Crítico MTTR = 1h, Alto MTTR = 4h. Monitoramento 24/7 com alertas automáticos. Resposta 24/7 com times em múltiplos shifts e regions. Análise pós-incidente é formal: RCA (root cause analysis), lições aprendidas, plano de ação. Dashboard mostra MTTR/MTBF em tempo real, segregado por sistema/serviço. Objetivo: melhorar contínuamente.

MTTR (Mean Time To Repair) é tempo médio entre o início de um incidente e sua resolução — mede rapidez de resposta. MTBF (Mean Time Between Failures) é tempo médio entre falhas — mede frequência de falhas. Juntas, essas métricas caracterizam confiabilidade de um sistema: MTBF alto significa falhas raras, MTTR baixo significa resposta rápida.

Por que essas métricas importam em TI

MTTR e MTBF refletem dois objetivos diferentes de operação: (1) evitar falhas (aumentar MTBF), (2) recuperar rápido quando falham (diminuir MTTR). Uma infraestrutura resiliente busca ambos.

Negócio sente impacto direto: se MTBF é baixo (falhas frequentes) e MTTR é alto (resposta lenta), downtime acumula e afeta receita. Exemplo: servidor de e-commerce falha 2x/semana, leva 2 horas para voltar = 4 horas/semana de downtime = ~200 horas/ano = possível perda de vendas.

MTTR: Medindo velocidade de resposta a incidentes

MTTR é calculado de forma simples: tempo total de downtime / número de incidentes.

Exemplo: em um mês, servidor foi abaixo 3 vezes: 1º vez 30 minutos, 2º vez 2 horas, 3º vez 45 minutos. Total downtime: 3 horas 15 minutos. MTTR = 195 min / 3 = 65 minutos.

Importante: MTTR é tempo de downtime efetivo, não tempo decorrido. Exemplo: incidente foi detectado às 14h, resolvido às 16h, mas sistema estava fora do ar apenas de 15:30 a 16h (30 minutos) = MTTR conta 30 minutos, não 1 hora 30 minutos.

Componentes de MTTR: entendendo o que medir

MTTR total tem 3 componentes que podem ser medidos separadamente:

  1. Detection Time (DT): quanto tempo levou para DESCOBRIR que ocorreu falha? Se usuário avisa (reativo), pode ser horas. Se sistema monitora (proativo), segundos.
  2. Response Time (RT): quanto tempo levou para equipe de TI COMEÇAR a trabalhar no problema? Se resposta é 24/7, alguns minutos. Se espera horário comercial, horas.
  3. Resolution Time (ResT): quanto tempo levou para RESOLVER o problema? Varia muito: simples (reiniciar servidor: 5 min), complexo (debugar código: 4h).

MTTR = DT + RT + ResT

Melhoria de MTTR pode vir de qualquer componente: melhor monitoramento reduz DT, resposta 24/7 reduz RT, automação reduz ResT.

MTBF: Medindo frequência de falhas e confiabilidade

MTBF é calculado de forma igualmente simples: tempo total de operação / número de falhas.

Exemplo: servidor foi ligado por 1.000 horas no mês. Teve 4 falhas. MTBF = 1.000 / 4 = 250 horas (sistema falha em média a cada 250 horas, ou ~10 dias).

MTBF é frequentemente expresso em anos: "MTBF de 99 anos" significa que, em média, esperamos falha a cada 99 anos — muito confiável. "MTBF de 1 ano" significa falha anual — aceitável para muitas aplicações, ruim para críticas.

Contexto é crítico: entendendo o que significa "bom" MTTR/MTBF

Um MTTR de 1 hora soa bom, mas contexto importa muito:

  • Se é servidor de produção não-crítico (intranet corporativa), 1 hora é aceitável.
  • Se é sistema de atendimento ao cliente, 1 hora é inaceitável — deve ser minutos.
  • Se é infraestrutura crítica (hospital, central elétrica), 1 hora é desastre — deve ser segundos com failover automático.

Benchmarks por contexto (referência de mercado):

  • MTBF: infraestrutura moderna com redundância = 10.000+ horas (mais de 1 ano). Infraestrutura antiga sem redundância = 1.000 horas (alguns meses).
  • MTTR: sistema crítico 24/7 = <30 minutos. Sistema comercial = <4 horas. Sistema não-crítico = <8 horas.
Pequena empresa

Medição é informal e orientada a prevenção. MTBF é alto porque infraestrutura é simples e falhas são raras. MTTR é alto porque não há resposta 24/7. Focus: evitar falhas (backup regular, updates, monitoramento manual). Medição é conversada ("quanto tempo levou para consertar a última vez?"), não formal.

Média empresa

Medição é estruturada por nível de criticidade. SLA define MTTR alvo por criticidade (Crítico 4h, Alto 8h, Médio 24h). MTBF é medido em dashboards simples (ferramentas de ticket registram incidentes). Análise pós-incidente é periódica — investigar incidentes críticos, documentar causa. Melhoria é incremental: melhor monitoramento, treinamento de resposta, atualização de sistemas antigos.

Grande empresa

Medição é contínua e granular. Dashboard mostra MTTR/MTBF em tempo real, segregado por sistema/serviço/criticidade. SLAs são rígidos: Crítico <1h, Alto <4h, Médio <8h, Baixo <24h. RCA (Root Cause Analysis) é obrigatório para incidentes acima de threshold. Foco em automação: redundância elimina falhas únicas, failover automático reduz MTTR, self-healing reduz necessidade de intervenção manual.

Trade-offs: custo de melhorar MTTR vs. MTBF

Melhorar MTTR e MTBF custa dinheiro. Decisões exigem entender trade-offs:

  • Melhorar MTBF (reduzir falhas): custa infraestrutura redundante, sistemas de alta disponibilidade, updates frequentes. Benefit: menos downtime, operação mais previsível. Exemplo: servidor com redundância custa 2x mais, mas falha 10x menos frequente.
  • Melhorar MTTR (resposta rápida): custa monitoramento 24/7, equipes de resposta em múltiplos shifts, automação de recuperação. Benefit: menos downtime quando falhas ocorrem. Exemplo: resposta 24/7 custa 40% mais (team dedicado), mas MTTR cai 50% (alguém responde imediatamente).

Decisão: qual é o custo de downtime para negócio? Se responder "mucho" (sistema crítico), investir em MTBF alto + MTTR baixo. Se responder "pouco" (sistema não-crítico), aceitar MTBF menor com resposta em horário comercial.

Como melhorar MTTR: ações práticas

  1. Monitoramento: implementar monitoramento proativo (alertas automáticos) reduz DT (detection time). Exemplo: alertar se CPU > 80% ao invés de esperar usuário reclamar.
  2. Resposta 24/7: ter equipe de resposta em todas as horas reduz RT (response time). Pequenos passos: começar com on-call (alguém responde fora de horário), depois escalons se necessário.
  3. Runbooks (documentação de resposta): para incidentes comuns, ter passo-a-passo documentado reduz ResT (resolution time). Exemplo: "Servidor X caiu — reiniciar usando...". Sem runbook, pessoa improveisa e leva mais tempo.
  4. Automação: para incidentes previsíveis, automatizar resolução. Exemplo: se disco está cheio, deletar logs antigos automaticamente.
  5. Treinamento: equipe experiente resolve mais rápido. Investimento em treinamento reduz ResT.

Como melhorar MTBF: ações práticas

  1. Redundância: sistema crítico deve ter backup automático. Exemplo: servidor primário falha, failover automático para servidor secundário — zero downtime.
  2. Manutenção preventiva: updates de sistema, troca de componentes que envelhecem (discos, fontes). Aumenta MTBF.
  3. Monitoramento de saúde: alertar quando componente está degradado antes de falhar. Exemplo: disco está em 85% capacidade — alertar antes de ficar 100% (falha).
  4. Design para confiabilidade: escolher componentes/arquitetura que naturalmente falham menos. Exemplo: SSD vs. disco mecânico — SSD tem MTBF mais alto.

Sinais de que sua operação de TI tem MTTR/MTBF ruins

Se você se reconhece em três ou mais cenários abaixo, operação precisa melhoria urgente.

  • Usuários descobrem problemas antes de TI (sem monitoramento proativo)
  • Mesmo sistema falha repetidas vezes; não há investigação de causa-raiz ou ação corretiva
  • Incidentes críticos levam mais de 4 horas para resolver
  • Não há resposta fora de horário comercial; sistema fica abaixo até próximo dia útil
  • Equipe de resposta é inexperiente; cada incidente leva muito tempo porque precisam "pesquisar"
  • Não há runbooks ou documentação de como responder a incidentes comuns
  • Estatísticas de MTTR/MTBF não são coletadas; desconhecimento completo de confiabilidade

Caminhos para melhorar MTTR e MTBF

Melhoria pode ser feita internamente ou com consultoria, dependendo de complexidade e urgência.

Implementação interna

Viável quando há equipe de infraestrutura ou operações que pode conduzir melhorias.

  • Perfil necessário: arquiteto de infraestrutura ou gestor de operações com experiência em alta disponibilidade
  • Tempo estimado: 3 a 6 meses para implementar monitoramento, resposta 24/7, runbooks, primeiros resultados de melhoria
  • Faz sentido quando: sistema não é crítico, investimento em redundância é baixo, expertise interna existe
  • Risco principal: subestimar complexidade de melhorias, foco em MTBF sem atacar MTTR (ou vice-versa), falta de dedicação — melhorias ficar em segundo plano
Com apoio especializado

Recomendado para sistemas críticos ou quando expertise interna é limitada.

  • Tipo de fornecedor: Consultor de Confiabilidade (Site Reliability Engineer), Especialistas em Alta Disponibilidade, Integradores de Infraestrutura
  • Vantagem: expertise em design de sistemas confiáveis, conhecimento de melhores práticas, aceleração de implementação, transferência de conhecimento para time interno
  • Faz sentido quando: sistema é crítico, downtime custa muito, goal é MTTR <30min + MTBF >10.000h, investimento em redundância é significativo
  • Resultado típico: em 8-12 semanas, diagnosis de confiabilidade, plano de arquitetura de HA (high availability), implementação de monitoramento, runbooks, treinamento de team, metas MTTR/MTBF definidas

Precisa melhorar confiabilidade de seus sistemas?

Se MTTR ou MTBF de seus sistemas estão abaixo do alvo, o oHub conecta você gratuitamente a consultores de confiabilidade e alta disponibilidade. Em menos de 3 minutos, você descreve sua situação e recebe propostas personalizadas, sem compromisso.

Encontrar fornecedores de TI no oHub

Sem custo, sem compromisso. Você recebe propostas e decide se e com quem avançar.

Perguntas frequentes

O que é MTTR em TI?

MTTR (Mean Time To Repair) é tempo médio entre o início de um incidente e sua resolução. Mede velocidade de resposta. Exemplo: se servidor foi abaixo 3 vezes em mês por 30 min, 2h, 45min, MTTR = 65 minutos. Objetivo: diminuir MTTR para reduzir downtime quando falhas ocorrem.

O que é MTBF e por que é importante?

MTBF (Mean Time Between Failures) é tempo médio entre falhas. Mede frequência de falhas. Exemplo: servidor foi ligado 1.000 horas, teve 4 falhas, MTBF = 250 horas. MTBF alto significa falhas são raras — sistema é confiável. MTBF baixo significa falhas frequentes — sistema é problemático.

Qual é um bom MTTR?

Depende de criticidade do sistema. Sistema crítico (e-commerce, banco): <1h. Sistema comercial (email, intranet): <4h. Sistema não-crítico: <8-24h. Benchmark: grandes empresas visam MTTR <1h para sistemas críticos, <4h para moderados. Pequenas empresas frequentemente têm MTTR >8h porque não têm resposta 24/7.

Como calcular MTBF de um servidor?

Fórmula: MTBF = Total de horas de operação / Número de falhas. Exemplo: servidor rodou 720 horas (1 mês), teve 3 falhas, MTBF = 240 horas. Importante: contar só tempo "operacional" (não contar manutenção planejada como falha), e registrar todas as falhas (mesmo pequenas) para ter métrica precisa.

Como reduzir MTTR?

4 ações: (1) Monitoramento proativo — alertar antes que usuário veja. (2) Resposta 24/7 — ter alguém disponível sempre. (3) Runbooks — documentação de como responder (não improvisar). (4) Automação — para incidentes comuns, resolver automaticamente sem esperar pessoa.

MTTR e MTBF — qual métrica importa mais?

Ambas importam, mas para contextos diferentes. Se falhas são raras (MTBF alto), MTTR importa menos. Se falhas são frequentes (MTBF baixo), MTTR importa muito — quanto mais rápido responder, menos impacto cada falha. Melhor: focar em aumentar MTBF primeiro (reduzir falhas), depois em diminuir MTTR (responder rápido).

Fontes e referências

  1. Google. Site Reliability Engineering: How Google Runs Production Systems. O'Reilly Media.
  2. AWS. AWS Well-Architected Framework: Reliability Pillar. Amazon Web Services.