Neste artigo: Como este tema funciona na sua empresa Crawlers de LLMs Por que essa decisão importa para o marketing Inventário dos principais crawlers de LLM Bot de treino vs. bot de retrieval em tempo real Sintaxe de robots.txt: como configurar Casos em que bloqueio seletivo faz sentido Como auditar o que está acontecendo hoje no seu site Erros comuns na configuração Sinais de que sua operação precisa decidir conscientemente sobre crawlers de LLM Caminhos para estruturar a política de crawlers de LLM Você sabe quais crawlers de IA já podem acessar seu conteúdo hoje? Perguntas frequentes Devo bloquear GPTBot? ClaudeBot rastreia meu site? PerplexityBot indexa? Como configurar robots.txt para LLMs? Bloquear LLM afeta SEO? Vale a pena permitir IA acessar conteúdo? Fontes e referências

oHub Base MKT Conteúdo, SEO e Inbound › GEO e Visibilidade em IA

Crawlers de LLMs: GPTBot, ClaudeBot, PerplexityBot

Q: Como configurar robots.txt para LLMs?

O arquivo fica na raiz do domínio (em seudominio.com.br/robots.txt). Cada bloco identifica um user-agent específico e suas regras com Allow ou Disallow. Configuração comum: bloquear bots de treino (GPTBot, ClaudeBot, CCBot, Google-Extended) e permitir bots de retrieval em tempo real (ChatGPT-User, PerplexityBot). Configuração mais comum em PMEs: permitir tudo. Atenção: robots.txt depende de o bot respeitar o arquivo — bots legítimos das principais empresas respeitam, mas não é mecanismo de segurança contra crawlers maliciosos.

Quem rastreia seu conteúdo para LLMs

Atualizado em: 07 de julho de 2026 • Crawlers atuais de LLMs, como gerenciar (robots.txt, bloqueios), implicações de bloqueio.

Este conteúdo foi gerado por IA e pode conter erros. |

Como este tema funciona na sua empresa

Pequena empresa

Decisão simples: permitir todos os principais crawlers de LLM para ganhar visibilidade em respostas de IA. Não há, em geral, conteúdo proprietário, regulatório ou de mídia paga que justifique bloqueio seletivo. A maior parte das pequenas empresas brasileiras tem mais a ganhar aparecendo em respostas do ChatGPT, Perplexity, Claude e Gemini do que a perder com "treinamento". Configuração no robots.txt fica em poucas linhas e raramente precisa ser revista. Quem cuida costuma ser o mesmo desenvolvedor que mantém o site, com input da pessoa responsável por marketing.

Média empresa

Público principal deste tema. Volume de conteúdo já é grande o suficiente para justificar análise por seção: blog público pode ser permitido para todos, área de clientes (intranet, central de ajuda autenticada) deve ser bloqueada, casos de uso e materiais de marketing podem ter políticas distintas. Decisão sai de uma reunião conjunta entre marketing (visibilidade), TI (implementação no robots.txt) e, quando aplicável, jurídico (cláusulas de uso). Revisão semestral do robots.txt cobre o aparecimento de novos bots.

Grande empresa

Conteúdo pode incluir áreas com restrições específicas: mídia jornalística com modelo de negócio baseado em assinatura, conteúdo proprietário licenciado, dados regulatórios (saúde, financeiro), bases de conhecimento legal. Política formal por tipo de conteúdo, definida em comitê que reúne marketing, TI, jurídico e, em algumas empresas, áreas de relações governamentais. Análise de logs de servidor identifica quais bots já rastreiam o site e em que volume. Algumas empresas firmam acordos comerciais com OpenAI, Anthropic ou Google para uso de conteúdo — bloqueio se torna parte da negociação contratual.

Crawlers de LLMs

são os robôs de rastreamento operados pelas empresas que desenvolvem grandes modelos de linguagem (LLMs, do inglês large language models), como OpenAI, Anthropic, Google, Perplexity e ByteDance, com a função de coletar conteúdo da web para treinamento de modelos ou para responder consultas em tempo real. Cada bot tem um nome próprio identificável no robots.txt (GPTBot, ClaudeBot, Google-Extended, PerplexityBot, entre outros) e cabe ao dono do site decidir, via diretivas Allow e Disallow, quais bots podem acessar quais seções — uma decisão que tem implicação direta na visibilidade do conteúdo em respostas de IA generativa e que precisa ser tomada com consciência do trade-off entre proteger conteúdo e ganhar citação.

Por que essa decisão importa para o marketing

Há poucos anos, o robots.txt era território exclusivo do SEO técnico. Hoje virou ponto de decisão estratégica do marketing: bloqueia-se ou permite-se o acesso aos crawlers de LLMs? A escolha tem consequências mensuráveis.

Bloquear todos os crawlers de LLM equivale a sair da resposta de IA. Se o ChatGPT, Perplexity, Claude e Gemini não conseguem ler seu conteúdo, eles não citam sua marca quando alguém faz pergunta relacionada. A camada de descoberta da web está rapidamente migrando de "lista de dez links azuis" para "resposta sintetizada com citações" — quem não está nas citações deixa de existir para uma fatia crescente de pesquisas.

Permitir tudo significa que conteúdo entra em datasets de treino e em respostas em tempo real. Para a maioria das empresas brasileiras, isso é desejável: o conteúdo cumpre a função para a qual foi criado — chegar ao público que precisa dele. Para um pequeno conjunto de empresas (mídia paga, base de dados proprietária, conteúdo legal/médico regulado), permitir tudo pode ser prejuízo.

Há um meio-termo que costuma fazer mais sentido: decidir por finalidade — diferenciar bots de treino (que coletam conteúdo para alimentar futuros modelos) de bots de retrieval em tempo real (que coletam conteúdo para responder consultas específicas no momento). A primeira categoria tem retorno menos claro para a maioria das empresas; a segunda costuma trazer visibilidade direta com citação no momento da resposta.

Este artigo lista os principais bots, separa por finalidade, mostra sintaxe de configuração e explica como auditar o que está acontecendo hoje no seu site.

Inventário dos principais crawlers de LLM

A lista abaixo cobre os bots de maior relevância operacional. A indústria muda — novos bots surgem, comportamentos são ajustados — então sempre vale checar a documentação oficial das empresas antes de tomar decisão. A maior parte das informações abaixo está nos sites oficiais de OpenAI, Anthropic, Google e Perplexity.

GPTBot (OpenAI). Bot de treinamento da OpenAI. Coleta conteúdo da web para alimentar futuros modelos. Identifica-se como GPTBot no user-agent. Permitir significa que conteúdo pode ser usado para treinar GPT futuro — não tem efeito direto em aparecer em respostas, mas contribui para que a marca esteja na "memória" do modelo. Bloquear significa que o conteúdo não entra em datasets futuros.

ChatGPT-User (OpenAI). Bot de retrieval em tempo real. Quando um usuário do ChatGPT faz pergunta que aciona busca na web, é o ChatGPT-User que vai buscar a resposta — e gera citação com link para a fonte. Permitir traz citação direta no momento da resposta. Bloquear tira sua marca dessa via.

OAI-SearchBot (OpenAI). Bot mais novo da OpenAI, ligado à funcionalidade de busca dentro do ChatGPT. Funcionamento similar ao ChatGPT-User, dedicado a uso direto em busca.

ClaudeBot (Anthropic). Bot principal da Anthropic, que coleta conteúdo da web para uso em produtos da empresa. A política da Anthropic indica uso para "melhorar nossos produtos e serviços" — escopo que inclui tanto treinamento quanto retrieval. Identifica-se como ClaudeBot.

Claude-Web (Anthropic). Variante específica para uso da Anthropic em produtos com necessidade de informação atual.

PerplexityBot (Perplexity). Bot do mecanismo de busca generativa Perplexity. Coleta conteúdo para responder consultas com citação obrigatória da fonte — o produto é construído em torno de mostrar a referência junto da resposta. Permitir é particularmente vantajoso porque o Perplexity sempre cita; bloquear elimina a presença da marca em um produto que entrega tráfego de retorno.

Google-Extended. Diferente do Googlebot tradicional (que continua rastreando para o índice de busca normal), o Google-Extended é o user-agent que controla acesso ao conteúdo para uso em Gemini e Vertex AI. Bloquear Google-Extended NÃO afeta SEO tradicional — o Googlebot continua acessando. Apenas tira o conteúdo do uso em produtos de IA do Google.

CCBot (Common Crawl). Bot da fundação Common Crawl, que mantém um dos maiores repositórios públicos de conteúdo da web. Esse repositório é usado por muitos LLMs (incluindo modelos da OpenAI, Anthropic, Meta e outros) como matéria-prima de treinamento. Bloquear CCBot reduz exposição em datasets de treino de praticamente toda a indústria de LLM. Permitir é a configuração padrão da maioria dos sites.

Bytespider (ByteDance). Bot da ByteDance (empresa-mãe do TikTok), usado para coletar conteúdo para modelos da empresa. Particularmente agressivo em volume de requisições — alguns sites bloqueiam por motivo de carga no servidor, não por política de conteúdo.

Bingbot (Microsoft). Atenção: o Bingbot tradicional alimenta o índice do Bing — bloquear prejudica SEO em Bing e em Copilot. A Microsoft posiciona o Copilot e o futuro SearchGPT como parcerias que usam o índice do Bing. Diferenciar isso é importante: bloquear "para sair da IA" prejudica o canal tradicional ao mesmo tempo.

Bot de treino vs. bot de retrieval em tempo real

Essa distinção é o que muda a equação para a maioria das empresas. Os dois tipos servem a finalidades diferentes e têm impacto diferente na visibilidade.

Bots de treino. Coletam conteúdo para alimentar futuros modelos. O conteúdo coletado entra em datasets enormes (centenas de bilhões de tokens) e é absorvido como "conhecimento de fundo" pelos modelos. Quando o modelo, posteriormente, responde a uma pergunta, pode incorporar esse conhecimento — sem necessariamente citar a fonte original. Exemplos: GPTBot, parte do uso do ClaudeBot, CCBot, Bytespider.

Bots de retrieval em tempo real. São acionados quando o usuário faz uma pergunta no produto de IA e o sistema decide buscar na web para responder. O bot visita páginas relacionadas naquele momento, sintetiza a resposta e cita as fontes — geralmente com link clicável. Exemplos: ChatGPT-User, OAI-SearchBot, PerplexityBot, e parte do uso do Claude-Web e do Google-Extended via Gemini com Grounding.

Para a maioria das empresas, o ROI claro está nos bots de retrieval: trazem citação direta, com link, no momento em que o usuário está perguntando sobre algo relacionado à marca. É a forma mais próxima de "SEO em respostas de IA" que existe hoje.

Para bots de treino, o ROI é mais difuso: o conteúdo pode contribuir para que o modelo "conheça" a marca e mencione em respostas futuras, mas não há garantia de citação. Algumas empresas permitem porque consideram presença na "memória" dos modelos um ativo de marca; outras bloqueiam por considerar que treinar sem compensação é cessão gratuita de patrimônio.

Uma decisão razoável para a maioria das empresas brasileiras: permitir bots de retrieval, decidir caso a caso sobre bots de treino. O lado "permite tudo" também é defensável e é a configuração padrão de quem não tomou decisão consciente.

Pequena empresa

Decisão geralmente é uniforme: permitir todos os principais bots e seguir adiante. Sem volume de conteúdo proprietário ou regulatório a proteger, e com necessidade clara de visibilidade, bloquear é desperdiçar oportunidade. Configuração padrão no robots.txt cobre os principais bots em poucas linhas. Atenção a um ponto: muitas pequenas empresas usam plataformas (Wix, Shopify, WordPress.com) com robots.txt padrão — vale conferir o que está lá hoje. Algumas plataformas adicionaram bloqueio padrão de GPTBot sem aviso aos donos do site.

Média empresa

Política por seção. Áreas públicas (blog, páginas de produto, casos de uso) permitidas; áreas autenticadas ou semipúblicas (central de ajuda atrás de login, documentação técnica restrita) bloqueadas. Documento interno com a política, revisado semestralmente quando novos bots aparecem. Marketing define o desejo de visibilidade; TI executa no robots.txt; jurídico revisa se há contratos comerciais ou regulatórios que tocam o tema.

Grande empresa

Política formal por tipo de conteúdo, com governança através de comitê. Conteúdo de mídia (jornalismo, conteúdo licenciado) pode ter bloqueio por modelo de negócio; bases regulatórias por compliance; conteúdo de marketing geral por estratégia de visibilidade. Algumas empresas firmam contratos comerciais com OpenAI, Anthropic ou Google para uso de conteúdo — o robots.txt vira instrumento contratual, refletindo o que foi negociado. Análise de logs identifica quais bots já acessam e em que volume.

Sintaxe de robots.txt: como configurar

O arquivo robots.txt fica na raiz do domínio (exemplo: exemplo.com.br/robots.txt). Cada bloco identifica um user-agent específico e suas regras. As diretivas básicas são Allow (permite acesso) e Disallow (bloqueia).

Exemplo 1 — bloquear apenas bots de treino, permitindo retrieval:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: *
Allow: /

Exemplo 2 — bloquear acesso de todos os crawlers de LLM em uma área específica, permitindo no resto:

User-agent: GPTBot
Disallow: /area-clientes/

User-agent: ClaudeBot
Disallow: /area-clientes/

User-agent: PerplexityBot
Disallow: /area-clientes/

User-agent: Google-Extended
Disallow: /area-clientes/

Exemplo 3 — permitir tudo (configuração padrão para empresas que querem máxima visibilidade):

Não precisa de nenhuma regra específica para bots de LLM. Sem regra Disallow para um user-agent específico, ele cai na regra geral User-agent: * — e se essa permite acesso, os bots de LLM têm acesso.

Limitações importantes do robots.txt: as diretivas dependem de o bot respeitar o arquivo. Bots legítimos das principais empresas (OpenAI, Anthropic, Google, Perplexity) costumam respeitar. Bots não identificados ou que ignoram robots.txt continuam acessando — o robots.txt não é mecanismo de segurança. Para bloqueio efetivo, soluções de firewall ou WAF (configurando bloqueio por user-agent ou por IP) são complementares.

Casos em que bloqueio seletivo faz sentido

A maior parte das empresas brasileiras se beneficia de permitir tudo. Mas há cinco situações em que bloqueio seletivo é legítimo:

1. Mídia jornalística com modelo de assinatura. Veículos cujo conteúdo é o produto pago não querem que ChatGPT, Perplexity ou Gemini respondam à pergunta usando seu conteúdo sem o usuário visitar a fonte original. Alguns dos maiores veículos do mundo (NYT, BBC, Reuters) bloquearam GPTBot e outros bots de treino — em alguns casos como antessala de negociação comercial, em outros como decisão definitiva.

2. Conteúdo proprietário ou licenciado. Bases de dados que foram montadas com investimento significativo (pesquisas proprietárias, benchmarks pagos, conteúdo licenciado de terceiros) podem ter restrição contratual ou estratégica de uso para treinamento de IA.

3. Conteúdo regulado. Em setores específicos (saúde, financeiro, jurídico), pode haver obrigação regulatória sobre uso e divulgação de informação. Conteúdo médico que poderia ser usado para responder sobre tratamento, conteúdo financeiro que poderia influenciar decisão de investimento, conteúdo jurídico técnico podem ter políticas de uso particulares.

4. Áreas autenticadas ou semipúblicas. Documentação interna acessível por URL pública (mas sem link, com obscuridade), área de clientes, central de ajuda atrás de login fraco. Faz sentido bloquear explicitamente para evitar exposição.

5. Carga no servidor. Em alguns casos, bots agressivos (como o Bytespider) geram volume de requisições que pesa no servidor. Bloqueio por motivo de infraestrutura é decisão técnica legítima, independente de política de conteúdo.

Fora desses cinco cenários, bloqueio "por precaução" costuma ser custo sem benefício.

Como auditar o que está acontecendo hoje no seu site

Antes de decidir nova política, vale entender a situação atual. Dois exercícios cobrem o essencial:

1. Verificar o robots.txt atual. Acessar seudominio.com.br/robots.txt diretamente no navegador. Ler o que está lá. Identificar regras existentes para GPTBot, ClaudeBot, PerplexityBot, Google-Extended, CCBot, Bytespider. Muitas empresas brasileiras descobrem que o site bloqueia GPTBot "por padrão" porque a plataforma (WordPress, Shopify, Wix) ou o desenvolvedor original adicionou a regra sem que ninguém da operação soubesse.

2. Analisar logs de servidor por user-agent de LLM. Pedir ao time de TI ou ao provedor de hospedagem um filtro dos logs por user-agent contendo "GPT", "Claude", "Perplexity", "Google-Extended", "CCBot", "Bytespider". Ver volume de requisições, páginas mais acessadas, tendência temporal. Para empresas sem acesso direto a logs, ferramentas como Cloudflare Analytics (se o site usa Cloudflare) mostram o tráfego por bot identificado.

O resultado da auditoria informa a decisão: se nenhum bot de LLM está rastreando porque tudo está bloqueado, está sendo perdida oportunidade de visibilidade. Se todos estão rastreando livremente, vale revisar se há áreas que deveriam ser protegidas.

Erros comuns na configuração

Bloquear sem analisar finalidade. Configuração "vou bloquear tudo de IA por precaução" elimina visibilidade futura sem proteção real (bots maliciosos ignoram robots.txt). Decisão consciente exige saber o que cada bot faz.

Copiar robots.txt de outro site sem contexto. Mídia americana grande (NYT, BBC) bloqueia bots de LLM por motivos específicos do modelo de negócio dela. Copiar essa configuração para PME brasileira que vive de visibilidade orgânica é decisão equivocada.

Esquecer de atualizar quando surge bot novo. A indústria muda rápido. Sites configurados há um ano podem não cobrir bots que surgiram depois (OAI-SearchBot, novas variantes). Revisão semestral é mínimo razoável.

Bloquear Googlebot achando que afeta IA. O Googlebot tradicional continua sendo o motor do SEO orgânico. Bloquear Googlebot é desaparecer da busca tradicional do Google — incluindo todo o tráfego orgânico que importa. Para controle de uso em IA do Google, é o Google-Extended que conta.

Bloquear Bingbot achando que ataca o Copilot. Mesma confusão. Bingbot é o índice do Bing — bloquear afeta SEO em Bing e em Copilot ao mesmo tempo. Não há, ainda, user-agent separado da Microsoft para isolar uso em IA.

Delegar decisão para o desenvolvedor sem input do marketing. A decisão de bloqueio de crawlers de LLM tem implicação direta em visibilidade e em estratégia de canal. Tomar decisão sem participação de quem responde por marketing é abdicar de escolha estratégica importante.

Sinais de que sua operação precisa decidir conscientemente sobre crawlers de LLM

Se três ou mais cenários abaixo descrevem sua situação, vale estruturar a decisão antes que ela seja tomada por padrão pela plataforma ou pelo desenvolvedor.

Ninguém da operação sabe o que tem no robots.txt do site hoje.
O site bloqueia GPTBot "por padrão" sem decisão consciente — vindo da plataforma ou de configuração antiga.
Log de servidor nunca foi analisado para entender quais bots de LLM já rastreiam o site.
Falta política clara de quais bots permitir por tipo de conteúdo.
A decisão técnica está delegada ao desenvolvedor sem input do marketing.
A empresa quer ganhar visibilidade em respostas de IA mas não verificou se isso está sendo permitido pelo site.
Robots.txt não é revisado há mais de seis meses — bots novos podem não estar contemplados.
Há áreas autenticadas ou conteúdo proprietário sem proteção explícita contra crawling de IA.

Caminhos para estruturar a política de crawlers de LLM

A decisão entre fazer interno ou contratar apoio externo depende da complexidade do conteúdo do site, da estrutura técnica e da existência de questões jurídicas ou regulatórias.

Implementação interna

Marketing alinha a política desejada (o que permitir, o que bloquear, por qual finalidade). TI implementa no robots.txt. Análise inicial de logs de servidor identifica situação atual. Revisão semestral mantém o arquivo atualizado.

Perfil necessário: analista de marketing com visão de estratégia de canal + desenvolvedor ou administrador de sistema com acesso ao robots.txt e a logs de servidor
Quando faz sentido: site sem conteúdo regulatório sensível, sem contratos comerciais com empresas de IA, equipe interna disponível
Investimento: tempo do time (8-16 horas iniciais + 2-4 horas semestrais para revisão) + sem custo de ferramenta dedicada

Apoio externo

Consultoria de SEO técnico ou agência com prática em estratégia de IA generativa estrutura a política, faz auditoria completa do site e implementa configuração. Para empresas com questões jurídicas, complementa com revisão de contrato com escritório especializado.

Perfil de fornecedor: agência de SEO técnico com prática em GEO (otimização para motores generativos), consultoria de estratégia digital com expertise em IA, ou agência de desenvolvimento web
Quando faz sentido: site grande com múltiplas seções, conteúdo regulatório, decisões jurídicas em paralelo, negociação comercial com empresas de IA
Investimento típico: R$ 5.000-30.000 para auditoria e implementação inicial + revisão jurídica conforme caso (R$ 5.000-50.000)

Você sabe quais crawlers de IA já podem acessar seu conteúdo hoje?

O oHub conecta sua empresa a agências de SEO técnico, consultorias de estratégia digital e desenvolvedores especializados em rastreamento e GEO. Em poucos minutos, descreva seu desafio e receba propostas de quem entende o mercado brasileiro.

Solicitar orçamento de Otimização Mecanismos de Busca - SEO Solicitar orçamento de Marketing Digital Solicitar orçamento de Consultoria em Marketing

Sem custo, sem compromisso. Você recebe propostas e decide se e com quem avançar.

Perguntas frequentes

Devo bloquear GPTBot?

Para a maioria das empresas brasileiras, não. GPTBot é o bot de treinamento da OpenAI — permitir contribui para que sua marca esteja na "memória" de futuros modelos. Bloquear faz sentido em casos específicos: mídia com modelo de assinatura, conteúdo proprietário licenciado, conteúdo regulatório sensível. Atenção: bloquear GPTBot não afeta o ChatGPT-User (bot de retrieval em tempo real), que é o que traz citação direta em respostas. Decisão consciente exige saber a diferença entre os dois bots.

ClaudeBot rastreia meu site?

Provavelmente sim, a menos que você tenha bloqueado explicitamente. ClaudeBot é o bot da Anthropic — coleta conteúdo da web para uso em produtos da empresa, que pela documentação inclui tanto treinamento quanto retrieval. Para verificar, analise os logs do seu servidor filtrando por user-agent contendo "Claude" ou consulte o robots.txt em seudominio.com.br/robots.txt para ver se há regra específica para ClaudeBot. Permitir é a configuração padrão da maioria dos sites brasileiros.

PerplexityBot indexa?

Sim. PerplexityBot rastreia conteúdo para responder consultas no Perplexity AI — buscador generativo que sempre cita as fontes da resposta com link clicável. Por causa desse modelo de citação obrigatória, permitir o PerplexityBot é particularmente vantajoso: sua marca aparece com link de retorno cada vez que o Perplexity responde uma pergunta usando seu conteúdo. Bloquear elimina a presença da marca em um produto que entrega tráfego direto.

Como configurar robots.txt para LLMs?

O arquivo fica na raiz do domínio (em seudominio.com.br/robots.txt). Cada bloco identifica um user-agent específico e suas regras com Allow ou Disallow. Configuração comum: bloquear bots de treino (GPTBot, ClaudeBot, CCBot, Google-Extended) e permitir bots de retrieval em tempo real (ChatGPT-User, PerplexityBot). Configuração mais comum em PMEs: permitir tudo. Atenção: robots.txt depende de o bot respeitar o arquivo — bots legítimos das principais empresas respeitam, mas não é mecanismo de segurança contra crawlers maliciosos.

Bloquear LLM afeta SEO?

Bloquear bots específicos de LLM (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) não afeta SEO tradicional — Googlebot e Bingbot continuam acessando normalmente. Cuidado a dois erros: bloquear Googlebot achando que ataca o Gemini (não, Googlebot é busca tradicional; é o Google-Extended que controla uso em IA do Google) e bloquear Bingbot achando que ataca o Copilot (não há user-agent separado da Microsoft ainda). Bloqueio consciente exige nomes corretos.

Vale a pena permitir IA acessar conteúdo?

Para a maioria das empresas brasileiras, sim. Visibilidade em respostas de IA generativa (ChatGPT, Perplexity, Claude, Gemini) é canal de descoberta em crescimento — bloquear é abrir mão de presença em um modo de busca que está substituindo parte da busca tradicional. Bloqueio seletivo faz sentido em casos específicos (mídia paga, conteúdo proprietário, regulatório). Decisão padrão recomendada: permitir bots de retrieval em tempo real (trazem citação direta com link) e decidir caso a caso sobre bots de treino.