Como este tema funciona na sua empresa
Crawl budget é quase sempre irrelevante. Sites com poucas centenas a alguns milhares de URLs são rastreados regularmente pelo Google sem restrição significativa de orçamento de rastreamento. A prioridade técnica está em outros pilares: arquitetura clara, conteúdo de qualidade, links internos, Core Web Vitals. Tempo gasto otimizando crawl budget nessa faixa é desperdício — o problema simplesmente não existe. A única atenção necessária é evitar erros básicos que prejudicariam rastreamento de qualquer porte: redirect chains longas, sitemap quebrado, robots.txt bloqueando o que não deveria.
Começa a importar quando o site cruza a faixa de 10.000 a 50.000 URLs ou quando há filtros indexáveis (e-commerce com facetas, marketplaces com cruzamentos) que multiplicam URLs sem agregar valor. Diagnóstico via relatório "Estatísticas de rastreamento" do Search Console: revisar se URLs importantes estão sendo crawled regularmente e se há URLs de baixo valor consumindo orçamento. Ferramentas: Screaming Frog, Sitebulb, Ahrefs ou Semrush para auditoria periódica. Otimização típica: robots.txt mais restritivo, canonical tags corretos, sitemap focado em URLs canônicas.
Crawl budget é restrição central para sites com centenas de milhares ou milhões de URLs (grandes e-commerces, marketplaces, portais de classificados, mídia). Análise de logs de servidor é prática rotineira: ferramentas como Botify, OnCrawl ou Screaming Frog Log File Analyser cruzam o que o Googlebot rastreia com o que importa para o negócio. Time dedicado de SEO técnico monitora a "saúde" do rastreamento, prioriza URLs por valor de negócio e governa a arquitetura para que orçamento de rastreamento se concentre em páginas que geram receita. Métricas reportadas: páginas importantes crawled por dia, ratio entre URLs de valor e URLs totais rastreadas, tempo médio para indexação de conteúdo novo.
Crawl budget
(orçamento de rastreamento, em português) é o conjunto de recursos que o Google aloca para rastrear um site em um determinado período, composto por dois fatores combinados: o limite de taxa de rastreamento (crawl rate limit, o quanto o Googlebot pode rastrear sem sobrecarregar o servidor) e a demanda de rastreamento (crawl demand, o quanto o Google quer rastrear baseado em popularidade, frescor e qualidade percebida). Só vira problema concreto em sites com dezenas ou centenas de milhares de URLs, em e-commerces com filtros indexáveis ou em portais com geração combinatória de páginas — para a maioria dos sites brasileiros, não é prioridade e tempo gasto otimizando crawl budget é tempo desperdiçado que poderia ir para conteúdo, links ou Core Web Vitals.
Quando crawl budget realmente vira problema
O Google é explícito sobre isso nos próprios documentos: a maioria dos sites não precisa se preocupar com crawl budget. A documentação oficial usa, como linha de corte aproximada, sites com mais de um milhão de URLs únicas ou sites de médio porte com conteúdo que muda diariamente — abaixo disso, o Googlebot consegue rastrear tudo que importa com folga.
Na prática, no mercado brasileiro, crawl budget começa a virar tema operacional em algumas situações típicas:
Sites com mais de 10.000 URLs únicas e relevantes. Acima dessa faixa, a operação começa a perceber que conteúdo novo demora mais a ser indexado, ou que URLs importantes não aparecem no índice. É hora de monitorar o relatório "Estatísticas de rastreamento" no Search Console e entender se o Google está conseguindo cobrir o site.
E-commerces com filtros indexáveis. Cada combinação de filtros (cor + tamanho + marca + preço) pode gerar URL única. Se essas URLs são indexáveis (não têm canonical para a categoria mãe ou noindex), uma loja com 1.000 produtos pode facilmente ter 100.000 URLs combinadas — a maior parte de baixíssimo valor. O Googlebot gasta orçamento rastreando essas URLs e deixa de visitar páginas que importam.
Portais e marketplaces com geração combinatória. Classificados, plataformas de aluguel, marketplaces e portais segmentados costumam ter geração de páginas por cruzamento de variáveis (cidade × bairro × tipo de imóvel × faixa de preço, por exemplo). Volumes explodem facilmente para a casa dos milhões.
Sites com parâmetros de URL sem governança. Parâmetros de rastreamento de campanha (utm_source), de sessão, de ordenação (?sort=preco) que geram URLs distintas indexáveis. O mesmo conteúdo aparece sob dezenas de URLs diferentes.
Sites com muitas páginas thin ou de baixíssima qualidade. Mesmo em volume médio, se uma fração grande das páginas é de baixo valor (conteúdo escasso, duplicado, gerado automaticamente sem revisão), o Googlebot reduz a demanda de rastreamento para o domínio inteiro. O orçamento encolhe.
Fora desses cenários, atacar crawl budget é prematuro. Vale focar em outros pilares de SEO.
Crawl rate limit e crawl demand: os dois componentes
Para entender o que dá para otimizar, é preciso separar os dois componentes.
Crawl rate limit — o limite que o Google se impõe para não sobrecarregar o servidor. Determinado por dois sinais: a saúde técnica do site (tempo de resposta, erros HTTP, estabilidade) e o limite configurado no Search Console (em sites antigos, ainda existe a opção). Servidor lento ou instável ? Googlebot reduz a taxa para não derrubar. Servidor rápido e estável ? Googlebot pode aumentar progressivamente.
Como melhorar: reduzir o tempo de resposta do servidor (alvo abaixo de 200 milissegundos para o primeiro byte em páginas dinâmicas), eliminar erros 5xx, garantir que CDN absorva picos, evitar bloqueios temporários por mecanismos de proteção (WAF) que confundam o Googlebot com tráfego suspeito.
Crawl demand — o quanto o Google quer rastrear o site. Determinado por popularidade (URLs com mais links externos são mais rastreadas), frescor (sites que atualizam frequentemente recebem mais rastreamento) e qualidade percebida (sites com baixa qualidade média recebem menos demanda).
Como melhorar: aumentar links externos para URLs importantes (a qualidade dos backlinks também importa), atualizar conteúdo regularmente em páginas estratégicas (não basta editar a data — precisa de mudança real), elevar a qualidade média do conteúdo (eliminar páginas thin que arrastam o domínio para baixo).
A combinação dos dois — limite que o Google se impõe + demanda que o Google tem — é o crawl budget efetivo do site. Otimização real toca nos dois lados.
Diagnóstico: como saber se há problema de fato
O sinal de alerta inicial: páginas importantes não estão sendo indexadas em prazo razoável, ou aparecem como "Descoberta — não indexada" ou "Rastreada — não indexada" em volume no Search Console. Mas antes de concluir que é crawl budget, é preciso verificar.
Relatório Estatísticas de rastreamento (Search Console). Disponível em Configurações ? Estatísticas de rastreamento. Mostra: total de solicitações de rastreamento por dia, total de bytes baixados, tempo médio de resposta. Detalha por tipo de arquivo (HTML, JavaScript, imagem, CSS), por status HTTP, por finalidade (descoberta de novas URLs vs. atualização de URLs conhecidas). Avaliar a evolução temporal — quedas relevantes indicam problema.
Cobertura de índice (Search Console). Em Páginas ? Por que essas páginas não estão indexadas, status como "Descoberta — não indexada" (Google conhece a URL mas ainda não rastreou) em volume sinaliza problema de crawl budget. "Rastreada — não indexada" é problema diferente (qualidade da página, geralmente).
Análise de logs de servidor. O padrão-ouro do diagnóstico. Logs do servidor (Apache, Nginx, IIS, Cloudflare) registram cada requisição, inclusive as do Googlebot. Cruzando logs com a lista de URLs importantes do site, dá para responder com precisão: quais URLs o Googlebot visita, com que frequência, quanto orçamento é gasto em URLs de baixo valor (paginação infinita, filtros, parâmetros). Ferramentas: Screaming Frog Log File Analyser (R$ 1.000-2.000 ao ano), Splunk e Elastic para empresas com infraestrutura de logs, plataformas enterprise (Botify, OnCrawl, Lumar) para grandes operações.
Verificação do Googlebot. Atenção: muito tráfego que se identifica como Googlebot é falso (concorrentes, scrapers). Validar via reverse DNS lookup — o IP precisa resolver para um nome em googlebot.com ou google.com. Sem essa validação, análise de logs pode confundir tráfego real com falsos positivos.
Sintomas de crawl budget queimado
Quatro sintomas típicos quando o orçamento de rastreamento está sendo gasto onde não deveria:
Conteúdo novo demora a ser indexado. Publicação saiu há dias e ainda não aparece nas buscas. Em sites pequenos, costuma ser conteúdo de baixa qualidade ou problema de descoberta. Em sites grandes, sinaliza falta de orçamento — o Googlebot ainda nem chegou.
URLs de baixo valor crawled com frequência. Análise de logs mostra Googlebot visitando URLs com parâmetros, paginação infinita, combinações de filtros, URLs antigas de produtos descontinuados. Cada visita a essas URLs é orçamento que não vai para o que importa.
URLs importantes pouco crawled. Páginas estratégicas (principais categorias, principais produtos, conteúdo evergreen) recebem rastreamento esparso — uma vez por semana ou menos. Quando há atualização (preço, estoque, conteúdo), demora a refletir.
Volume de "Descoberta — não indexada" alto. Search Console mostra muitas URLs conhecidas mas não rastreadas. Em sites grandes, é o sinal mais direto de pressão sobre crawl budget.
Diagnóstico de crawl budget raramente é necessário. Foque os recursos em outros pilares de SEO técnico: garantir que o site não tem erros de rastreamento óbvios (verificar Cobertura no Search Console), que o sitemap está atualizado e que links internos chegam a todas as páginas importantes. Se há sintoma de página importante não indexada, investigar primeiro qualidade do conteúdo e arquitetura — quase sempre é isso, não crawl budget.
Auditoria semestral com Screaming Frog ou Sitebulb para mapear URLs totais do site. Se passar de 10.000-50.000 URLs únicas e indexáveis, começar a monitorar o relatório Estatísticas de rastreamento do Search Console. Atenção especial a e-commerces: revisar URLs geradas por filtros, paginação e parâmetros — geralmente é onde está a sangria. Implementação inicial: canonical tags corretos, robots.txt bloqueando parâmetros sem valor, sitemap focado em URLs canônicas.
Análise contínua de logs de servidor com plataforma especializada (Botify, OnCrawl, Lumar) ou solução interna baseada em ELK/Splunk. Cruzamento entre URLs rastreadas, URLs indexáveis, URLs com tráfego orgânico e URLs com valor comercial. Métricas reportadas mensalmente: ratio entre URLs de valor e URLs totais rastreadas, tempo médio para indexação, frequência de rastreamento das principais categorias. Plano de melhoria envolve engenharia, produto e SEO técnico em conjunto.
Otimizações que de fato funcionam
Quando o diagnóstico confirma problema de crawl budget, seis frentes de otimização concentram a maior parte do retorno:
1. Robots.txt para bloquear URLs sem valor. Identificar padrões de URL que não devem ser rastreados (parâmetros de sessão, ordenação interna, filtros que geram páginas duplicadas) e bloquear no robots.txt. Cuidado: bloquear no robots.txt impede rastreamento, não indexação — URLs já indexadas continuam no índice (precisariam de noindex para sair, mas para o Googlebot ver o noindex, ele precisa rastrear). A ordem correta para URLs já indexadas que se quer remover: primeiro adicionar noindex, esperar o Google rastrear e remover, depois bloquear no robots.txt.
2. Canonical tags corretos. Cada URL deve ter tag canonical apontando para a versão preferencial. Em filtros e variantes, canonical aponta para a página mãe. Em URLs com parâmetros de rastreamento, canonical aponta para a versão limpa. Não resolve problema de rastreamento (Googlebot ainda precisa visitar a URL para ver a canonical), mas consolida o sinal de qual versão deve ser indexada.
3. Eliminar redirect chains. Cada redirecionamento em cadeia (A ? B ? C ? D) é orçamento desperdiçado. Auditoria com Screaming Frog identifica chains e permite atualizar para redirect direto (A ? D). Particularmente crítico após migrações de site, onde redirect chains tendem a acumular silenciosamente.
4. Sitemap focado em URLs canônicas. Sitemap deve conter apenas URLs que se quer indexar. Erros comuns: incluir URLs com noindex, com canonical apontando para outra, com status 4xx ou 5xx, ou bloqueadas no robots.txt. Sitemap "limpo" sinaliza ao Google a lista prioritária e melhora a eficiência do rastreamento.
5. Links internos que priorizem páginas-chave. Páginas com mais links internos recebem mais crawl. Garantir que URLs estratégicas (principais categorias, produtos lucrativos, conteúdo evergreen) tenham links internos a partir de páginas com autoridade (home, principais categorias). Páginas órfãs (sem nenhum link interno) são pouco rastreadas — sitemap ajuda mas não substitui linkagem.
6. Reduzir páginas thin. Páginas com pouquíssimo conteúdo único (descrições genéricas de produto, listagens vazias, páginas geradas automaticamente sem revisão) arrastam a qualidade percebida do domínio e reduzem o crawl demand. Consolidar ou eliminar páginas thin é frequentemente mais eficaz que tentar otimizar o rastreamento delas.
Erros comuns no tratamento de crawl budget
Tratar crawl budget como prioridade em site pequeno. Site com 800 URLs gastando trimestres tentando "otimizar crawl budget" enquanto deveria focar em conteúdo e links. Verificar volume real antes de investir.
Bloquear no robots.txt URLs já indexadas que se quer remover. Erro descrito acima — URLs ficam no índice "fantasma", sem o Google poder rastrear o noindex que deveria removê-las. A sequência correta é noindex primeiro, robots.txt depois (semanas ou meses depois, conforme o Google reprocesse).
Sitemap com URLs noindex. Mistura sinais contraditórios: sitemap diz "rastreie isso" e a página diz "não indexe". Googlebot rastreia, vê noindex, frustra-se. Auditar sitemap regularmente.
Bloquear CSS e JavaScript no robots.txt. Para o Google entender a página, precisa renderizar com CSS e JS. Bloquear esses arquivos prejudica avaliação da página. A regra padrão é permitir CSS e JS, bloquear apenas URLs HTML sem valor.
Confundir crawl com indexação. Rastrear não é indexar. Página pode ser rastreada e não ser indexada (qualidade baixa, conteúdo duplicado). Atacar problema de indexação como se fosse crawl budget é desperdício.
Não analisar logs antes de agir. Sem ver o que o Googlebot está rastreando de fato, otimizações são teóricas. Para sites grandes, análise de logs é diagnóstico obrigatório.
Sinais de que crawl budget é prioridade para sua operação
Se três ou mais cenários abaixo descrevem seu site, vale incluir crawl budget como tema operacional.
- Site tem mais de 50.000 URLs únicas indexáveis e o volume continua crescendo.
- E-commerce ou marketplace com filtros indexáveis sem governança clara de canonical e noindex.
- Search Console reporta volume relevante de "Descoberta — não indexada" em URLs importantes.
- Não há visibilidade dos logs de servidor — ninguém sabe o que o Googlebot está visitando.
- Mudanças em páginas importantes não refletem em ranqueamento por semanas, indicando atraso de rastreamento.
- Redirect chains e parâmetros de URL acumulam-se sem governança sistemática.
- Site cresce por geração combinatória de páginas (cidade × categoria × subcategoria, por exemplo).
- Há fração relevante de páginas thin ou geradas automaticamente sem revisão de qualidade.
Caminhos para tratar crawl budget
A decisão entre fazer interno ou contratar apoio externo depende do volume e perfil do site, do acesso a logs e da maturidade técnica do time.
Desenvolvedor com conhecimento de SEO técnico e acesso a logs de servidor conduz auditoria, identifica padrões de URL problemáticos e implementa correções diretamente em robots.txt, canonical, sitemap e arquitetura de URL. SEO valida prioridades de páginas-chave.
- Perfil necessário: desenvolvedor com domínio de SEO técnico + analista de SEO que conheça a fundo o site e suas páginas estratégicas + acesso a logs de servidor (Apache, Nginx, CDN)
- Quando faz sentido: site relativamente conhecido pelo time, dev com tempo dedicado para SEO, volume moderado (até algumas centenas de milhares de URLs)
- Investimento: tempo do time (60-200 horas iniciais + manutenção contínua) + ferramentas como Screaming Frog (R$ 1.000/ano), eventualmente Sitebulb ou Ahrefs (R$ 5.000-10.000/ano)
Consultoria de SEO técnico ou agência com expertise em sites grandes conduz auditoria completa, análise de logs com plataforma enterprise e plano de implementação. Geralmente envolve desenvolvedor interno na fase de execução.
- Perfil de fornecedor: consultoria de SEO técnico especializada em sites grandes (e-commerce, mídia, marketplaces) ou agência com plataforma de análise de logs (Botify, OnCrawl, Lumar)
- Quando faz sentido: site com centenas de milhares ou milhões de URLs, falta de expertise interna, decisão estratégica de tornar SEO técnico prioridade
- Investimento típico: R$ 30.000-150.000 por auditoria inicial completa + R$ 8.000-40.000 mensais para acompanhamento contínuo + custo da plataforma de análise de logs (R$ 50.000-300.000/ano em soluções enterprise)
Seu site tem volume e perfil que justificam tratar crawl budget como prioridade?
O oHub conecta sua empresa a agências de SEO técnico, consultores especializados em sites grandes e desenvolvedores com expertise em rastreamento e indexação. Em poucos minutos, descreva seu desafio e receba propostas de quem entende o mercado brasileiro.
Encontrar fornecedores de Marketing no oHub
Sem custo, sem compromisso. Você recebe propostas e decide se e com quem avançar.
Perguntas frequentes
O que é crawl budget?
Crawl budget (orçamento de rastreamento) é o conjunto de recursos que o Google aloca para rastrear um site em um determinado período. Combina dois fatores: o limite de taxa de rastreamento (quanto o Googlebot pode rastrear sem sobrecarregar o servidor) e a demanda de rastreamento (quanto o Google quer rastrear, baseado em popularidade, frescor e qualidade). Em sites pequenos, o orçamento é suficiente com folga. Em sites grandes (centenas de milhares de URLs ou mais), vira restrição que precisa ser gerenciada.
Crawl budget importa para sites pequenos?
Não. Para a maioria dos sites brasileiros — com poucas centenas a alguns milhares de URLs — crawl budget não é problema. O Googlebot consegue rastrear tudo que importa sem restrição relevante. Tempo gasto otimizando crawl budget nessa faixa é desperdício que poderia ir para outros pilares de SEO mais impactantes (conteúdo de qualidade, arquitetura clara, links internos, Core Web Vitals). Crawl budget só vira tema quando o site passa de 10.000-50.000 URLs ou tem geração combinatória de páginas.
Como verificar crawl budget?
Três fontes principais: o relatório Estatísticas de rastreamento no Search Console (Configurações ? Estatísticas de rastreamento) mostra solicitações por dia, status HTTP e tempo de resposta; o relatório Cobertura de índice indica URLs descobertas mas não rastreadas; análise de logs de servidor (com Screaming Frog Log File Analyser, Botify ou OnCrawl) é o padrão-ouro — mostra exatamente quais URLs o Googlebot visita, com que frequência e quanto orçamento é gasto em URLs sem valor.
Como melhorar crawl budget?
Seis frentes concentram o maior retorno: robots.txt para bloquear URLs sem valor (parâmetros, filtros que não devem ser indexados), canonical tags corretos consolidando variantes, eliminação de redirect chains (atualizar para redirect direto), sitemap focado apenas em URLs canônicas indexáveis, links internos priorizando páginas-chave (páginas órfãs recebem pouco rastreamento), e redução de páginas thin que arrastam a qualidade percebida do domínio. Tudo isso só faz sentido após diagnóstico que confirme problema real.
Logs de servidor são necessários?
Para sites pequenos e médios, não são necessários — o Search Console basta. Para sites grandes (acima de algumas centenas de milhares de URLs), logs de servidor são o padrão-ouro do diagnóstico: mostram exatamente o que o Googlebot rastreia, em que frequência e que parcela do orçamento é gasta em URLs de baixo valor. Ferramentas como Screaming Frog Log File Analyser, Botify, OnCrawl ou Lumar fazem essa análise. Atenção a validar o Googlebot via reverse DNS — muito tráfego que se identifica como Googlebot é falso (concorrentes, scrapers).
Diferença entre crawl rate e crawl demand?
São os dois componentes do crawl budget. Crawl rate limit é o limite que o Google se impõe para não sobrecarregar o servidor — determinado pela saúde técnica do site (tempo de resposta, erros HTTP, estabilidade). Servidor rápido e estável permite taxa maior. Crawl demand é o quanto o Google quer rastrear o site — determinado por popularidade (links externos), frescor (frequência real de atualização) e qualidade percebida. O budget efetivo é a combinação dos dois: o que o servidor aguenta e o que o Google considera valer a pena.
Fontes e referências
- Google Search Central. Managing crawl budget for large sites — documentação oficial sobre quando crawl budget importa e como otimizar.
- Botify. Plataforma de análise de logs e estudos de caso sobre rastreamento em sites grandes.
- OnCrawl. Plataforma de SEO técnico para sites grandes com análise de logs e crawl.
- Search Engine Land. Cobertura editorial sobre crawl budget, rastreamento e indexação em escala.
- Ahrefs Blog. Guias e estudos sobre SEO técnico, incluindo otimização de crawl em sites grandes.