Como este tema funciona na sua empresa
Implementação simples e barata — site pequeno e bem organizado se beneficia desproporcionalmente. Curadoria manual em uma hora ou duas: título do site, breve descrição, lista enxuta de links curados por seção. Hospedagem direta na raiz do domínio (sem custo adicional). Ganho de visibilidade em motores generativos (ChatGPT, Perplexity, Claude, Gemini) é potencialmente significativo, especialmente em nichos verticais com baixa concorrência. Atualização pode ser semestral ou anual.
Curadoria mais complexa — site com dezenas a centenas de páginas exige decisão sobre o que destacar. Aprofundamento em estrutura por áreas temáticas (produtos, soluções, recursos, documentação técnica, blog). Pode incluir versão expandida (llms-full.txt). Time de SEO técnico + desenvolvimento publica e mantém. Atualização trimestral ou conforme lançamentos. Vale combinar com revisão de robots.txt e sitemap.xml para coerência de sinais técnicos.
Governança formal e múltiplos arquivos por subdomínio. Site grande exige escolhas curadoriais difíceis — listar tudo derrota o propósito do arquivo. Pode envolver geração automatizada com regras de curadoria (priorizar páginas de mais alto valor editorial) + revisão humana. Time de SEO + arquitetura de conteúdo + desenvolvimento operam em conjunto. Diferentes subdomínios podem ter llms.txt próprios (corporativo, blog editorial, documentação técnica, central de ajuda).
llms.txt (arquivo de orientação para LLMs)
é uma proposta emergente de arquivo em formato Markdown, hospedado na raiz do domínio, que orienta modelos de linguagem (LLMs) sobre o conteúdo mais relevante de um site — funcionando como sumário curado em vez de mapa completo, com título do site, breve descrição e links curados organizados por seção (H2/H3), inspirando-se em robots.txt (controle de acesso de rastreadores) e sitemap.xml (mapa completo da estrutura), mas com finalidade própria: ser fácil de consumir por modelos de IA generativa em janelas de contexto limitadas.
Origem e finalidade da proposta
A proposta do llms.txt foi formulada por Jeremy Howard, fundador da Answer.AI (e co-fundador da fast.ai), em setembro de 2024. A motivação técnica é simples: modelos de linguagem têm janela de contexto limitada (mesmo nos modelos mais avançados, o contexto efetivo é finito), e sites complexos têm dezenas de milhares de páginas, scripts JavaScript que dificultam o parse, mapas de site grandes demais para caber em uma janela. Quando um modelo precisa entender o que um site oferece, ele frequentemente faz isso de forma imperfeita.
A solução proposta: oferecer ao modelo um sumário curado em formato Markdown, fácil de ler, com os links mais importantes organizados por tópico. Em vez de pedir ao modelo "leia todo o site", oferece-se "leia este sumário curado preparado por quem conhece o site melhor que ninguém".
É proposta emergente, não padrão oficial. Não há consórcio internacional regulamentando, nem documento RFC formal. A especificação vive em llmstxt.org mantida pela própria Answer.AI. A adoção é crescente entre sites técnicos e empresas de tecnologia, mas longe de ser universal. Vale conhecer e implementar como sinal de intenção e como prática que tende a se consolidar.
Diferença para robots.txt e sitemap.xml
Os três arquivos têm finalidades distintas e não se substituem.
robots.txt. Arquivo de texto na raiz que controla o acesso de rastreadores (Googlebot, Bingbot, GPTBot, ClaudeBot, etc.) ao site. Diz "este caminho pode ser rastreado, aquele não pode". É instrumento de controle, não de descrição. Continua válido e necessário independente do llms.txt.
sitemap.xml. Mapa completo (ou quase) das URLs do site, em formato XML, usado por motores de busca para descobrir e indexar páginas. Lista tudo — frequentemente milhares ou dezenas de milhares de URLs. Não é curadoria, é inventário.
llms.txt. Sumário curado em formato Markdown, com os links mais relevantes organizados por seção. Não é controle de acesso (não bloqueia nada) nem inventário completo (não lista tudo). É edição de conteúdo — uma seleção da página principal de cada tema, do conteúdo essencial para entender o que o site oferece.
A coexistência é coerente: robots.txt controla quem pode rastrear o quê; sitemap.xml lista tudo o que existe; llms.txt curadora o que vale destacar para um modelo entender rapidamente.
Estrutura do arquivo: o formato proposto
A especificação propõe estrutura simples em Markdown. Os elementos:
Linha 1 (H1): título do site. Nome da marca ou domínio. Exemplo: # oHub — Marketplace de serviços profissionais para empresas.
Bloco de citação (opcional, >): descrição curta. Uma a três frases que expliquem o que o site oferece. Exemplo: > Encontre fornecedores brasileiros de marketing, tecnologia, RH e operações. Bases enciclopédicas para gestores e analistas.
Parágrafo introdutório (opcional). Contexto adicional para o modelo entender o site.
Seções (H2): áreas temáticas. Cada seção é uma categoria de conteúdo. Exemplo: ## Bases enciclopédicas, ## Categorias de fornecedores, ## Recursos e ferramentas.
Lista de links em cada seção: formato Markdown padrão. Exemplo:
- [oHub Base RH](https://ohub.com.br/rhpedia): enciclopédia de RH para gestores brasileiros
- [oHub Base TI](https://ohub.com.br/ti): enciclopédia de tecnologia da informação
- [oHub Base MKT](https://ohub.com.br/marketing): enciclopédia de marketing
Seção "Optional" (H2 opcional): conteúdo secundário que o modelo pode acessar se houver espaço de contexto, mas que não é central. Útil para grandes sites — concentra o essencial nas seções principais e oferece "extra" no opcional.
A regra geral: o arquivo precisa ser curto o suficiente para caber confortavelmente em uma janela de contexto comum (dezenas de KB), mas substantivo o suficiente para que o modelo entenda o que o site oferece. Curadoria vence completude.
Curadoria com plugin de CMS quando disponível (alguns plugins para WordPress já oferecem geração assistida) ou criação manual direta. Estrutura enxuta: título, descrição curta, 3 a 8 seções, 5 a 20 links no total. Hospedagem direta na raiz (https://seudominio.com.br/llms.txt) via FTP, painel de controle do servidor (cPanel, Plesk) ou painel do CMS. Atualização semestral ou anual. Foco em conteúdo evergreen — páginas datadas ou em fluxo constante de mudança ficam fora.
Curadoria manual feita por time de SEO técnico em conjunto com conteúdo. Decisão consciente sobre o que destacar — site com dezenas a centenas de páginas exige escolha editorial. Estrutura por áreas temáticas (produtos, soluções, recursos, blog, documentação técnica). Pode incluir versão expandida llms-full.txt na raiz para conteúdo aprofundado. Publicação via repositório do site e deploy regular. Atualização trimestral ou conforme lançamentos. Coerência com robots.txt e sitemap.xml revisada simultaneamente.
Governança formal entre SEO, arquitetura de conteúdo e desenvolvimento. Múltiplos arquivos por subdomínio quando aplicável (corporativo, blog editorial, documentação técnica, central de ajuda, comunidade). Geração automatizada com regras de curadoria (priorizar páginas de alto valor editorial, conteúdo evergreen, páginas pilar) + revisão humana antes de publicar. Pipeline de CI/CD pode gerar e atualizar automaticamente com regras editoriais embutidas. Monitoramento de adoção e atualização contínua conforme novos lançamentos.
llms-full.txt: a versão expandida
A especificação propõe também um arquivo complementar opcional: llms-full.txt. A diferença é o nível de detalhamento.
O llms.txt é o sumário curado — lista de links com descrições curtas. O modelo precisa abrir cada link se quiser aprofundar.
O llms-full.txt é o conteúdo aprofundado — pode conter o texto completo de páginas principais, documentação técnica, manuais. Para sites técnicos com documentação extensa, o llms-full.txt evita que o modelo precise navegar por dezenas de páginas para reunir informação coerente.
O tamanho do llms-full.txt pode crescer significativamente (centenas de KB ou até alguns MB), mas vale para casos de uso técnico em que o modelo precisa ter o material completo disponível imediatamente.
Nem todo site precisa de llms-full.txt. Para a maioria — institucional, blog, e-commerce, empresa de serviços — o llms.txt curado é suficiente. O llms-full.txt faz sentido principalmente para empresas de tecnologia com documentação de API, biblioteca de software, central de ajuda extensa.
Onde e como hospedar
O arquivo vive na raiz do domínio: https://seudominio.com.br/llms.txt. A escolha da raiz segue a convenção de outros arquivos similares (robots.txt, sitemap.xml) — é o lugar onde modelos e rastreadores procuram automaticamente.
Publicação prática varia por stack:
WordPress. Plugin (alguns já oferecem) ou upload direto via FTP/SFTP/cPanel para a pasta raiz do site.
CMS headless ou estático (Gatsby, Next.js, Astro, Hugo, Jekyll). Adicionar o arquivo ao diretório de assets estáticos (public, static, assets) — será servido na raiz após deploy.
Hospedagem em servidor próprio (Apache, Nginx). Upload direto via FTP/SFTP ou painel de controle. Garantir que o servidor sirva arquivos .txt com Content-Type text/plain ou text/markdown.
Plataformas como Shopify, Vtex, Wix, Squarespace. Possibilidade depende do nível de acesso à raiz do domínio — algumas plataformas oferecem upload de arquivos personalizados; outras não permitem.
Teste após publicação acessando o URL direto e verificando que o conteúdo aparece como texto puro, não como HTML interpretado.
Status de adoção e quem reconhece
A adoção do llms.txt está em formação. Alguns marcos práticos:
Sites técnicos como Anthropic (documentação), Cloudflare (em algumas seções), Mintlify (plataforma de documentação) e outros adotaram a prática. Empresas de SaaS técnicas vêm aderindo conforme a especificação ganha tração.
Modelos de linguagem e plataformas de busca generativa não declararam suporte oficial universal — não há documentação pública confirmando que o ChatGPT, Claude, Gemini ou Perplexity tratam o llms.txt como sinal de prioridade quando rastreiam ou respondem. A prática é vista como sinal de intenção e boa organização editorial, mais do que como mecânica garantida.
A situação é análoga ao histórico do sitemap.xml — começou como proposta sem suporte oficial e foi adotado gradualmente pelos motores de busca à medida que ficou claro que ajudava todos os lados. O llms.txt está em fase similar de tração.
Frame realista: implementar agora é investimento pequeno (uma a quatro horas para site pequeno; um dia para site médio) com upside potencialmente significativo conforme a adoção avança. Não esperar que o arquivo entregue resultado imediato e mensurável — trate como aposta sensata, não como certeza.
Erros comuns na implementação
Copiar o sitemap.xml. Listar todas as páginas do site no llms.txt derrota o propósito do arquivo. Curadoria vence completude.
Listar tudo, sem hierarquia. Lista plana sem seções (H2/H3) dificulta para o modelo entender a estrutura. Use seções por área temática.
Misturar com robots.txt. São arquivos diferentes, com finalidades diferentes. Manter robots.txt para controle de acesso e llms.txt para curadoria de conteúdo.
Abandonar sem atualização. Arquivo desatualizado entrega o pior dos mundos: dá ao modelo informação errada sobre o site. Defina cadência de revisão (semestral, trimestral) e cumpra.
Datas explícitas no arquivo. Não inclua datas que ficarão velhas. Mantenha por área temática, sem referências a "lançamento de 2024" ou "atualizado em janeiro" — datas envelhecem mal.
Links quebrados. URLs do arquivo precisam funcionar. Após mudanças de estrutura do site, atualize o llms.txt — links 404 prejudicam a percepção de qualidade.
Texto promocional excessivo. Descrições devem ser informativas, não anúncios. "Solução revolucionária número 1 do mercado" entrega menos do que "plataforma de gestão de fornecedores para empresas brasileiras".
Sinais de que vale implementar llms.txt no seu domínio
Se três ou mais cenários abaixo descrevem sua operação, vale considerar a implementação.
- Não sabe se já existe llms.txt no domínio — provavelmente não existe.
- Nenhum mapa curado do conteúdo principal está exposto para consumo de modelos de IA.
- robots.txt está desatualizado, sem regras específicas para rastreadores de IA (GPTBot, ClaudeBot, Google-Extended).
- Não há processo entre time de conteúdo e desenvolvimento para alinhar sinais técnicos de SEO e GEO (otimização para motores generativos).
- Conteúdo pilar do site está disperso, sem hubs claros que respondam "este é o melhor recurso sobre X".
- Equipe não sabe como sua marca aparece quando o usuário pergunta sobre o setor em ChatGPT, Perplexity, Claude ou Gemini.
- Lançamentos importantes acontecem sem atualização dos sinais para crawlers e modelos.
- Site grande sem hierarquia editorial clara — modelos teriam dificuldade de saber o que destacar.
Caminhos para implementar llms.txt
A decisão entre implementação interna ou apoio externo depende da maturidade técnica do time, do tamanho do site e da prioridade dada a visibilidade em motores generativos.
Time de SEO técnico + desenvolvimento publica e mantém. Curadoria editorial alinhada com marketing e conteúdo. Revisão periódica seguindo o calendário editorial.
- Perfil necessário: analista de SEO técnico + desenvolvedor com acesso à raiz do domínio + curadoria de conteúdo
- Quando faz sentido: empresa com time interno de SEO técnico estabelecido e cultura de manutenção de sinais técnicos
- Investimento: tempo do time interno (1 a 4 horas para site pequeno; 1 a 2 dias para site médio; várias semanas para site grande com múltiplos subdomínios)
Consultoria de SEO técnico/GEO ou agência de marketing digital implementa, curadora e treina o time interno para manutenção.
- Perfil de fornecedor: otimização de mecanismos de busca (SEO), criação de sites e hotsites, ou serviços de marketing digital com prática em SEO técnico e GEO
- Quando faz sentido: empresa sem time interno de SEO técnico, ou com lacuna de conhecimento sobre práticas emergentes de GEO
- Investimento típico: R$ 2.500 a R$ 15.000 por projeto pontual de implementação inicial; manutenção contínua frequentemente incluída em pacote de SEO técnico mensal
Seu domínio já tem llms.txt apontando o caminho para os motores generativos?
O oHub conecta sua empresa a consultorias de SEO técnico e GEO, agências de criação de sites e serviços de marketing digital. Em poucos minutos, descreva seu desafio e receba propostas de quem entende o mercado brasileiro.
Encontrar fornecedores de Marketing no oHub
Sem custo, sem compromisso. Você recebe propostas e decide se e com quem avançar.
Perguntas frequentes
O que é llms.txt?
É uma proposta emergente de arquivo em formato Markdown, hospedado na raiz do domínio (https://seudominio.com.br/llms.txt), que orienta modelos de linguagem (LLMs como ChatGPT, Claude, Gemini, Perplexity) sobre o conteúdo mais relevante de um site. Funciona como sumário curado em vez de mapa completo, com título do site, breve descrição e links organizados por seção. Foi proposto por Jeremy Howard (Answer.AI) em setembro de 2024. Ainda não é padrão oficial — proposta em adoção crescente, sem consórcio internacional regulamentando.
Como criar arquivo llms.txt?
Em formato Markdown, com estrutura: linha 1 com título do site (H1), bloco de citação opcional com descrição curta, seções (H2) por área temática, listas de links em formato Markdown ([Texto](URL): descrição curta) dentro de cada seção, e seção opcional "Optional" (H2) para conteúdo secundário. Hospede o arquivo na raiz do domínio. A regra geral é curadoria vence completude — entregue ao modelo o essencial, não todo o inventário do site. A especificação está em llmstxt.org.
llms.txt substitui robots.txt?
Não. São arquivos diferentes com finalidades diferentes. O robots.txt controla o acesso de rastreadores (Googlebot, GPTBot, ClaudeBot, etc.) ao site — diz "esse caminho pode rastrear, aquele não pode". É instrumento de controle de acesso. O llms.txt é curadoria editorial — um sumário do conteúdo mais relevante para modelos consumirem rapidamente. Os dois coexistem: robots.txt continua válido e necessário para controle de acesso; llms.txt é complemento para orientação de conteúdo. Sitemap.xml também segue válido como inventário completo.
Qual o formato do llms.txt?
Markdown. A especificação propõe: H1 com título do site, bloco de citação (>) opcional com descrição curta, parágrafo introdutório opcional, seções (H2) por área temática, listas de links em cada seção no formato Markdown padrão. Para sites técnicos com documentação extensa, há a variante llms-full.txt — versão expandida com conteúdo aprofundado em vez de só links. O formato é deliberadamente simples para que modelos consumam facilmente em janelas de contexto limitadas. Curto e curado vence longo e completo.
Quem usa llms.txt hoje?
Sites técnicos como Anthropic (documentação), Cloudflare (em algumas seções), Mintlify (plataforma de documentação) e outras empresas de SaaS técnicas adotaram a prática. A adoção entre empresas brasileiras está em fase inicial, com early adopters em tecnologia e marketing digital. Modelos de linguagem (ChatGPT, Claude, Gemini, Perplexity) e plataformas de busca generativa não declararam suporte oficial universal — não há documentação pública confirmando tratamento prioritário do arquivo. A prática é vista como sinal de intenção e boa organização editorial.
llms.txt é padrão oficial?
Não é padrão oficial. É proposta emergente formulada por Jeremy Howard (Answer.AI) em setembro de 2024, com especificação em llmstxt.org. Não há consórcio internacional regulamentando, nem documento RFC formal. A adoção é crescente entre sites técnicos, mas longe de ser universal. A situação é análoga ao histórico do sitemap.xml — começou como proposta sem suporte oficial e foi adotado gradualmente pelos motores de busca. Frame realista: implementar agora é investimento pequeno com upside potencial conforme a adoção avança, não certeza de resultado imediato.
Fontes e referências
- llmstxt.org. Especificação oficial da proposta — formato, exemplos e diretrizes de implementação.
- Answer.AI. Página da organização de Jeremy Howard, proponente original do llms.txt e mantenedora da especificação.
- Search Engine Land. Cobertura editorial sobre llms.txt, GEO (Generative Engine Optimization) e práticas emergentes de SEO técnico.
- Hacker News. Discussões técnicas sobre adoção do llms.txt, alternativas e implementações práticas em diferentes stacks.
- Anthropic Documentation. Exemplo de site técnico que adotou llms.txt como parte da estrutura de documentação para LLMs.