Neste artigo: Como este tema funciona na sua empresa Design de experimentos em marketing Por que teste A/B simples não cobre tudo Catálogo de desenhos de experimento Teste A/B (controle versus tratamento) Teste multivariado (MVT) Teste sequencial Grupo de controle (holdout) Multi-armed bandit (MAB) Como escolher o desenho pela pergunta de negócio Hipótese antes do método: a regra básica Multivariado: quando vale o custo de complexidade Teste sequencial: parar mais cedo sem inflar erro Grupo de controle (holdout): medindo incrementalidade real Multi-armed bandit em marketing Cultura de experimentação: além do método Erros comuns em design de experimentos Sinais de que seu programa de experimentação precisa de evolução Caminhos para estruturar um programa de experimentação Seu programa de experimentação responde às perguntas certas? Perguntas frequentes Qual a diferença entre teste A/B e multivariado? O que é teste sequencial? Quando usar holdout (grupo de controle)? Como desenhar experimento de incrementalidade? Multi-armed bandit em marketing funciona? DOE (design of experiments) em marketing existe? Fontes e referências

oHub Base MKT Dados, Analytics e MarTech › Marketing Analytics e Mensuração

Design de experimentos em marketing

Além do A/B simples

Atualizado em: 07 de julho de 2026 • Tipos de experimento: A/B, multivariado, sequencial, holdout; quando cada faz sentido.

Este conteúdo foi gerado por IA e pode conter erros. |

Como este tema funciona na sua empresa

Pequena empresa

Teste A/B simples cobre quase todas as necessidades — base costuma ser pequena demais para experimentos mais sofisticados detectarem efeito com confiança estatística. Teste multivariado, multi-armed bandit ou grupo de controle estruturado raramente justificam o custo de complexidade. Foco: uma variável por vez, registrar hipótese e resultado mesmo sem significância estatística clara, construir aprendizado qualitativo ao longo do tempo. Ferramentas: teste A/B nativo da plataforma de e-mail (Mailchimp, RD Station, Brevo), Google Optimize foi descontinuado, alternativas como VWO ou Optimizely em tier inicial.

Média empresa

Público principal deste artigo. Teste A/B é prática consolidada; multivariado entra em campanhas com volume suficiente; grupo de controle (holdout) começa a ser usado para medir incrementalidade de campanhas grandes. Programa de testes mensal com priorização explícita, manual operacional de cálculo de amostra, métrica primária definida antes do envio. Plataformas: VWO, Optimizely, AB Tasty, Convert. Aprendizagem é registrada em biblioteca interna e consultada antes de novos testes. Analista de marketing com noção sólida de estatística.

Grande empresa

Programa de experimentação corporativa com plataforma robusta (Optimizely, VWO, Adobe Target, plataforma própria), governança formal de priorização, comitê de experimentação, time dedicado de analytics de marketing. Testes contínuos em paralelo com regras de coordenação para evitar interferência entre experimentos. Multi-armed bandit em campanhas com alto volume e necessidade de otimização contínua. Grupo de controle (holdout) permanente de 5-10% da base para medir incrementalidade. Cultura de experimentação como pré-requisito de decisão. Investimento anual significativo em plataforma, time e operação.

Design de experimentos em marketing

é o conjunto de métodos para testar hipóteses comerciais e de comunicação com rigor estatístico — abrangendo teste A/B (uma variável), teste multivariado (combinações de variáveis), teste sequencial (com regras corretas para parar antes), grupo de controle (parte da base que não recebe a ação para medir incrementalidade) e multi-armed bandit (otimização contínua com exploração) — exigindo escolha do desenho adequado à pergunta de negócio, amostra dimensionada, métrica primária definida antes do experimento e registro disciplinado para acúmulo de aprendizagem.

Por que teste A/B simples não cobre tudo

Teste A/B é a porta de entrada da experimentação em marketing. É simples de explicar, fácil de implementar com ferramentas modernas e gera respostas claras quando bem desenhado. Mas A/B simples tem limites estruturais — algumas perguntas de negócio não cabem nesse formato, e tentar forçá-las gera respostas erradas com aparência de certeza.

Quando você precisa testar duas variáveis ao mesmo tempo (combinação de linha de assunto e horário de envio), A/B simples obriga a escolher uma e ignorar a outra, ou rodar dois testes sequenciais que não capturam interação entre variáveis. Quando precisa parar o teste mais cedo porque uma variante claramente venceu, A/B simples sem regra de parada formal vira armadilha estatística. Quando precisa saber se a campanha inteira está gerando incrementalidade ou apenas comportamento que já aconteceria de qualquer forma, A/B simples comparando duas versões de campanha não responde. Quando precisa otimizar continuamente em escala, A/B sequencial com vencedor declarado e implementado é menos eficiente que mecanismos que ajustam tráfego em tempo real.

Cada uma dessas situações pede um desenho específico. O profissional maduro conhece o catálogo, escolhe pelo que a pergunta exige e respeita o custo de complexidade de cada opção. Em vez de "fazemos A/B em tudo", a postura correta é "que desenho responde à pergunta com o menor custo de operação?"

Catálogo de desenhos de experimento

Os cinco desenhos mais usados em marketing, com a pergunta que cada um responde melhor.

Teste A/B (controle versus tratamento)

Compara duas versões de algo (campanha, página, e-mail), alterando uma única variável. Responde: "essa variável tem impacto significativo na métrica X?". Foi tratado em artigo dedicado (teste A/B em e-mail). Pré-requisitos: hipótese clara, métrica primária definida antes, amostra calculada para significância, duração mínima que cubra o ciclo. Custo de complexidade: baixo. Bom para: 80% das perguntas de marketing.

Teste multivariado (MVT)

Testa combinações de duas ou mais variáveis simultaneamente. Em vez de comparar "linha de assunto A vs B", compara as quatro combinações de "linha de assunto A ou B" com "horário de envio X ou Y". Responde: "qual combinação de variáveis maximiza a métrica?" e também "há interação entre as variáveis?". Pré-requisito crítico: amostra muito maior — cada combinação precisa de público suficiente para significância. Para duas variáveis com dois níveis cada (4 células), a amostra precisa ser aproximadamente 4x a do A/B equivalente. Custo de complexidade: alto. Bom para: empresa com volume substancial e perguntas sobre interação entre variáveis (pacotes de comunicação, layouts de página, ofertas combinadas).

Teste sequencial

Versão de A/B com regra explícita para parar mais cedo quando há evidência forte de vencedor. Diferente do A/B clássico que define amostra inicial e roda até completar, sequencial monitora a evidência ao longo do tempo e aplica regra de parada (testes sequenciais clássicos como Wald, ou métodos modernos como always-valid p-values). Responde: "qual a variante vencedora, com o menor desperdício de tráfego possível?". Pré-requisito: regra de parada definida e respeitada — parar quando der vontade não é teste sequencial, é peeking (espiar resultado parcial e decidir parar), que infla a taxa de falso positivo. Custo de complexidade: médio. Bom para: campanhas onde cada dia de tráfego em variante perdedora é caro.

Grupo de controle (holdout)

Parte da base (tipicamente 5-10%) é deliberadamente excluída da ação (campanha, e-mail, oferta) para servir como controle puro. A comparação não é entre duas versões da ação, mas entre quem recebeu e quem não recebeu. Responde: "a ação inteira está gerando incrementalidade ou apenas correlação com comportamento que já aconteceria?". É o único desenho que mede incrementalidade real. Pré-requisitos: definição rigorosa do grupo de controle (aleatório, sem contaminação cruzada), prazo de avaliação adequado, indicador final (compra, retenção, cancelamento) e não apenas indicador imediato (clique, abertura). Custo de complexidade: médio-alto (organizacional, mais que técnico — segurar pessoas sem receber comunicação gera atrito interno). Bom para: campanhas grandes, programas de fidelidade, ações de retenção, mídia paga.

Multi-armed bandit (MAB)

Algoritmo de otimização contínua que ajusta dinamicamente a proporção de tráfego enviada a cada variante com base no desempenho observado. Variantes que estão performando bem recebem mais tráfego; variantes ruins recebem menos. Em vez de "rodar A/B e declarar vencedor", MAB explora e explota simultaneamente. Responde: "qual variante usar a cada momento para maximizar resultado total ao longo do tempo?". Pré-requisitos: volume alto (variantes precisam acumular dados rapidamente), métrica de feedback rápida, entendimento da diferença entre exploração e explotação. Custo de complexidade: alto. Bom para: otimização contínua em larga escala — recomendações em comércio eletrônico, anúncios em plataformas de busca, posições em página de destino com tráfego pesado.

Como escolher o desenho pela pergunta de negócio

A escolha errada do desenho é fonte mais frequente de erro que a execução errada de cada desenho. Algumas perguntas-guia ajudam:

Você quer saber se a variável afeta a métrica? Teste A/B simples.

Você quer saber se a combinação de duas variáveis afeta a métrica ou se uma interage com a outra? Teste multivariado — desde que o volume suporte.

Você quer otimizar o uso de tráfego durante o próprio teste, parando cedo quando há evidência clara? Teste sequencial com regra de parada formal.

Você quer saber se a ação inteira gera valor, ou se as pessoas comprariam de qualquer forma? Grupo de controle.

Você quer otimizar continuamente em escala, sem parar para declarar vencedor? Multi-armed bandit.

Frequentemente, a resposta envolve combinar desenhos: A/B para identificar variantes candidatas; grupo de controle separado para medir incrementalidade do programa todo; MAB em camadas de alta granularidade que justificam otimização contínua.

Hipótese antes do método: a regra básica

O erro de manual mais comum em experimentação é começar pelo método. Time entusiasmado com MAB ou multivariado parte buscando lugar onde aplicar, em vez de partir de pergunta de negócio e escolher o método que responde. Isso gera dois efeitos prejudiciais: experimentos elegantes sem impacto (resposta correta para pergunta irrelevante), e investimento de tempo e ferramenta em métodos sofisticados que não justificam o ganho marginal sobre A/B simples.

Disciplina correta: começar pela hipótese — o que você acha que vai acontecer e por quê. Hipótese boa tem três componentes: variável que muda, expectativa de magnitude, racional pelo qual a mudança deveria gerar o efeito. Exemplo bom: "linha de assunto com personalização (nome do destinatário) aumenta a taxa de abertura em 5% comparado a assunto genérico, porque a personalização sinaliza relevância". Exemplo ruim: "vamos testar com personalização para ver o que acontece" — sem expectativa, qualquer resultado vira interessante.

A partir da hipótese clara, o método decorre: variável única, métrica única, expectativa de magnitude define amostra, racional define teste de robustez (a hipótese alternativa que explicaria o mesmo resultado deveria ser descartável).

Pequena empresa

Foque em teste A/B simples e bem feito. Multivariado, sequencial, grupo de controle e MAB raramente justificam o custo de complexidade em volume baixo. Disciplinas mínimas: hipótese escrita antes do teste, métrica primária definida antes, registro qualitativo do resultado mesmo sem significância estatística clara. Ferramenta: teste A/B nativo da plataforma (Mailchimp, RD Station, Brevo, Shopify, VTEX). Aceite que parte dos testes não atinge significância — use como aprendizagem qualitativa que orienta hipóteses futuras.

Média empresa

Programa de testes mensal com priorização explícita: 1-2 testes A/B por mês em campanhas-chave, 1 teste multivariado por trimestre em peças com volume suficiente, grupo de controle permanente de 5-10% em campanhas grandes para medir incrementalidade. Manual operacional documentado com cálculo de amostra, definição de métrica primária, prazo mínimo de teste. Plataformas: VWO, Optimizely, AB Tasty, Convert. Analista com noção sólida de estatística (ou consultor recorrente). Biblioteca de aprendizagem versionada, consultada antes de novos testes.

Grande empresa

Programa formal de experimentação corporativa com plataforma robusta (Optimizely, VWO Enterprise, Adobe Target, Statsig, plataforma própria), governança de priorização (comitê de experimentação), time dedicado de analytics de marketing (analistas, cientistas de dados, plataforma de dados). Testes contínuos em paralelo com regras de coordenação. MAB em camadas de alto volume. Grupo de controle (holdout) permanente. Cultura de experimentação como pré-requisito de decisão. Investimento anual: milhões de reais em plataforma, time e operação.

Multivariado: quando vale o custo de complexidade

Teste multivariado parece elegante — testa várias variáveis em uma rodada — mas o custo de complexidade é alto. Vale apenas quando a pergunta justifica.

Pré-requisito de volume. Cada combinação (célula) precisa de amostra suficiente para significância. Para duas variáveis com dois níveis cada, são quatro células; para três variáveis com dois níveis, oito; para três variáveis com três níveis, vinte e sete. O crescimento é exponencial, e a amostra necessária explode. Para base de 10.000 contatos ativos, multivariado com mais de quatro células raramente atinge significância em prazo razoável.

Hipótese de interação. A justificativa principal do multivariado é capturar interação entre variáveis — quando o efeito conjunto difere da soma dos efeitos individuais. Linha de assunto A com horário X pode performar melhor que A+Y e B+X. Se você não tem hipótese de interação clara, rodar dois A/Bs sequenciais é mais eficiente.

Implementação técnica. Plataforma precisa suportar multivariado nativamente. Implementação manual é arriscada — atribuição mal feita gera resultados sem validade. Optimizely, VWO, AB Tasty têm suporte nativo. Mailchimp e plataformas básicas raramente.

Análise estatística. Multivariado exige análise mais sofisticada que A/B — múltiplas comparações, correção de Bonferroni ou similares, atenção a problemas de teste múltiplo. Analista com formação adequada é pré-requisito.

Para a maioria das empresas, multivariado é exceção que prova a regra. Para grandes operações de comércio eletrônico, anúncios digitais ou e-mail em escala, é ferramenta regular.

Teste sequencial: parar mais cedo sem inflar erro

O instinto natural durante um teste A/B é olhar resultado parcial e decidir parar quando uma variante parece estar ganhando. Esse comportamento — chamado de "peeking" — invalida a estatística do teste: olhar várias vezes infla a probabilidade de declarar vencedor por acaso. Teste sequencial é a forma estatisticamente válida de parar mais cedo.

Métodos clássicos. Sequential Probability Ratio Test (SPRT) de Wald monitora a razão de verossimilhança e para quando atinge limite definido. Funciona, mas exige cálculos cuidadosos.

Métodos modernos. "Always-valid p-values" e métodos relacionados (mSPRT, group sequential designs) permitem monitoramento contínuo do teste com garantias estatísticas formais. Algumas plataformas (Optimizely Stats Engine) implementam esses métodos nativamente, permitindo "parar quando quiser" sem inflar erro.

Regra de parada antes do teste. Quando começar a monitorar, com que frequência olhar, qual o limite de evidência para parar, qual o tempo máximo de teste mesmo sem evidência clara. Definir tudo antes do início é o que distingue teste sequencial válido de peeking disfarçado.

Custo da complexidade. Equipe precisa entender o método e respeitar a regra de parada. Time que diz "estamos fazendo teste sequencial" e olha o resultado todo dia decidindo intuitivamente quando parar está fazendo peeking — não teste sequencial.

Grupo de controle (holdout): medindo incrementalidade real

Grupo de controle merece destaque porque responde à pergunta de negócio mais importante e menos respondida: "o programa de marketing está gerando incrementalidade real ou apenas correlação com comportamento que já aconteceria?".

Princípio. Separar aleatoriamente parte da base (5-10% típico) que deliberadamente não recebe a ação. Comparar resultados finais (compra, retenção, cancelamento, NPS) entre quem recebeu e o grupo de controle. A diferença é o impacto incremental real.

Aplicações típicas. Programa de e-mail (grupo que não recebe e-mail por período mostra retenção e compra na ausência); mídia paga (grupo geográfico ou demográfico sem exposição mostra desempenho sem a mídia); programa de fidelidade (grupo similar sem o programa mostra comportamento de base); push notification (grupo que não recebe notificação mostra retenção sem ela).

Desafios organizacionais. Times comerciais e de marketing resistem porque grupo de controle "deixa receita na mesa" — pessoas que poderiam ter sido convertidas não foram. Argumento contrário: sem grupo de controle, não se sabe se a receita gerada é incremental ou apenas atribuível por correlação. Resistência interna é frequentemente o maior obstáculo, não o desafio técnico.

Boas práticas. Grupo de controle aleatório (não conveniência), prazo de avaliação adequado para capturar efeito (em programas de retenção, meses; em comércio eletrônico, dias), métrica final (compra, retenção) e não apenas intermediária (clique, abertura), rotação periódica do grupo para não criar viés permanente em parte da base.

Aprendizagem. Resultados de grupo de controle frequentemente surpreendem — campanhas que pareciam alto desempenho mostram baixa incrementalidade, programas que pareciam custosos mostram alto retorno real. Acumular essas descobertas calibra investimento de forma muito mais robusta que indicadores de atribuição tradicionais.

Multi-armed bandit em marketing

MAB é o desenho mais sofisticado e o mais incompreendido. Frequentemente é implementado sem que o time entenda a diferença entre exploração e explotação, gerando resultados ruins disfarçados de otimização.

Princípio. Em vez de testar variantes em proporções iguais até atingir significância, o algoritmo aloca tráfego dinamicamente para variantes que estão performando melhor — explorando ainda em variantes desconhecidas, mas explotando o que já se sabe que funciona. Em ambientes onde o ótimo pode mudar com o tempo (sazonalidade, mudanças de público), MAB pode capturar essas mudanças sem precisar de novo teste formal.

Algoritmos comuns. Epsilon-greedy (com probabilidade epsilon explora, caso contrário explota o melhor), Upper Confidence Bound (UCB), Thompson Sampling. Cada um tem propriedades diferentes — Thompson Sampling tende a ter melhor desempenho prático em marketing.

Quando faz sentido. Tráfego alto que justifica acompanhamento contínuo; métrica de feedback rápida (impossível com métricas de longo prazo como retenção); variantes que podem mudar de desempenho ao longo do tempo (sazonalidade, novos públicos); contexto onde "declarar vencedor e implementar" é menos eficiente que ajuste contínuo.

Quando não faz sentido. Volume baixo (MAB não aprende rápido); métricas de feedback lento (não pode usar retenção como sinal imediato); decisões com viés humano (precisa explicar decisão para alguém de fora do dado). Em marketing, MAB encontra aplicação clara em recomendações de comércio eletrônico, anúncios em plataformas de busca, posições em página de destino com tráfego pesado.

Risco principal. Time implementa MAB achando que "está fazendo experimentação contínua" mas perdeu a capacidade de interpretar o que está aprendendo. Sem mecanismo para extrair aprendizagem do MAB (qual variante venceu, por que, em que condições), o algoritmo otimiza desempenho mas não gera conhecimento.

Cultura de experimentação: além do método

Empresas com programa de experimentação maduro compartilham padrões culturais que vão além de qualquer método específico:

Priorização explícita. Lista de hipóteses candidatas, com critérios de impacto esperado, custo de teste e tempo até resultado. Comitê de experimentação ou ritual mensal decide quais entram no ciclo.

Biblioteca de aprendizagem. Cada teste vira registro: hipótese, método, resultado, decisão tomada. Biblioteca é consultada antes de novos testes para evitar repetir testes anteriores e para acumular conhecimento.

Resultado negativo tem mesmo valor. Cultura imatura recompensa apenas testes com vencedor claro. Cultura madura reconhece que descobrir o que não funciona é tão valioso quanto descobrir o que funciona. Resultado negativo previne investimento futuro em direção errada.

Decisão baseada em evidência. Quando o teste mostra resultado, a decisão segue o resultado — mesmo quando contraria intuição da liderança. Cultura imatura ignora teste quando resultado não confirma a expectativa do líder.

Investimento em ferramenta e formação. Plataforma adequada, treinamento da equipe, consultoria pontual quando necessário. Tentar fazer experimentação séria com ferramenta inadequada gera resultados duvidosos.

Erros comuns em design de experimentos

Multivariado com amostra insuficiente. Quatro ou oito células rodadas com base que mal cobre A/B simples. Resultado: nenhuma célula atinge significância, time interpreta diferenças que são ruído. Solução: calcular amostra necessária antes; se a base não cobre, fazer A/Bs sequenciais.

Peeking disfarçado de sequencial. Equipe olha o resultado parcial todo dia e decide intuitivamente parar quando uma variante parece estar ganhando. Inflando taxa de falso positivo. Solução: definir regra de parada formal antes do teste e respeitar, ou usar plataforma com método de always-valid p-values.

MAB sem entendimento. Time implementa MAB porque "é mais moderno", sem entender exploração vs explotação. Resultado: variantes "vencedoras" recebem todo o tráfego rapidamente, variantes que poderiam vencer com mais dados são abandonadas precocemente, e o time perde capacidade de extrair aprendizagem. Solução: começar com A/B simples; migrar para MAB quando o time entende a teoria.

Holdout questionado pela equipe comercial. Time de mídia ou de vendas pressiona para eliminar grupo de controle porque "deixa receita na mesa". Sem patrocínio executivo, o programa de incrementalidade morre. Solução: alinhar incentivos com indicadores incrementais, não com receita total; mostrar valor pedagógico de descobertas de incrementalidade.

Resultado de experimento não vira decisão. Teste é feito, resultado é registrado, mas não muda nada — comportamento volta ao padrão original. Sintoma de cultura imatura, onde experimentação é teatro. Solução: ritual formal de revisão pós-teste com decisão registrada.

Hipótese depois do método. Equipe entusiasmada com MVT ou MAB parte buscando lugar onde aplicar. Resultado: experimentos elegantes para perguntas irrelevantes. Solução: começar pela hipótese de negócio; método decorre da pergunta.

Sinais de que seu programa de experimentação precisa de evolução

Se três ou mais sinais abaixo descrevem sua operação atual, vale revisar o desenho dos experimentos antes de aumentar o volume de testes.

Toda pergunta de marketing vira teste A/B simples, mesmo quando a pergunta exigia outro desenho (incrementalidade, interação entre variáveis).
Multivariado é tentado com amostra que mal cobre A/B simples, gerando resultados sem significância.
Multi-armed bandit foi implementado mas ninguém na equipe consegue explicar a diferença entre exploração e explotação.
Teste sequencial é declarado mas a equipe olha o resultado todo dia e decide intuitivamente quando parar (peeking).
Não existe grupo de controle em campanhas grandes — incrementalidade do programa todo nunca foi medida.
Resultado de experimento frequentemente não vira decisão; comportamento volta ao padrão.
Não há priorização explícita de experimentos — testes acontecem por proximidade de quem propõe, não por impacto esperado.
Biblioteca de aprendizagem não existe ou não é consultada — mesma hipótese é testada várias vezes.

Caminhos para estruturar um programa de experimentação

A decisão entre desenvolver capacidade interna ou contratar apoio externo depende da maturidade analítica do time, do volume de testes e da prioridade estratégica da experimentação.

Implementação interna

Analista de marketing com formação em estatística desenha o programa, calibra desenhos, treina time. Plataforma adequada (Optimizely, VWO, Adobe Target) implementa testes. Biblioteca de aprendizagem é construída ao longo do tempo. Comitê de experimentação prioriza pauta.

Perfil necessário: analista de marketing com base sólida em estatística, líder de marketing que patrocine o programa, eventual cientista de dados em empresa de maior porte
Quando faz sentido: empresa média com volume moderado, equipe disposta a aprender, orçamento limitado para consultoria recorrente
Investimento: plataforma (R$ 2.000-50.000 mensais conforme escala) + tempo do analista (40-100% dedicado) + curso/formação (R$ 5.000-30.000 por ciclo)

Apoio externo

Consultoria de experimentação ou de analytics de marketing desenha o programa, calibra desenhos, treina o time interno e acompanha primeiros ciclos. Em empresa grande, parceiro recorrente apoia operação. Fornecedor de plataforma especializada (Optimizely, VWO, Adobe Target, Statsig) entra para tecnologia.

Perfil de fornecedor: consultoria de experimentação ou otimização de conversão, escritório de analytics de marketing, consultoria de cultura data-driven, fornecedor de plataforma especializada
Quando faz sentido: empresa grande com volume alto, primeira estruturação formal de experimentação, necessidade de mover além de A/B simples, prioridade estratégica de cultura de evidência
Investimento típico: consultoria de desenho de programa: R$ 50.000-300.000 por projeto; consultoria recorrente: R$ 30.000-150.000 mensais; plataforma corporativa: R$ 10.000-200.000 mensais conforme escala

Seu programa de experimentação responde às perguntas certas?

O oHub conecta sua empresa a consultorias de experimentação e otimização de conversão, especialistas em analytics de marketing, fornecedores de plataformas e profissionais de cultura orientada a evidência. Em poucos minutos, descreva seu desafio e receba propostas de quem entende o mercado brasileiro.

Solicitar orçamento de Consultoria em Marketing

Sem custo, sem compromisso. Você recebe propostas e decide se e com quem avançar.

Perguntas frequentes

Qual a diferença entre teste A/B e multivariado?

Teste A/B compara duas versões alterando uma única variável (linha de assunto A vs B). Teste multivariado testa combinações de duas ou mais variáveis simultaneamente (linha de assunto A ou B combinada com horário X ou Y, gerando quatro células). A/B responde "essa variável tem impacto?"; multivariado responde "qual combinação maximiza o resultado, e há interação entre variáveis?". Multivariado exige amostra muito maior (cada célula precisa de público suficiente para significância) e raramente vale a pena fora de operações com volume substancial e perguntas claras sobre interação.

O que é teste sequencial?

Teste sequencial é a forma estatisticamente válida de parar um teste mais cedo quando há evidência forte de vencedor. Diferente do A/B clássico (que define amostra inicial e roda até completar), sequencial monitora a evidência ao longo do tempo e aplica regra de parada formal. Métodos: Sequential Probability Ratio Test (SPRT) de Wald, mSPRT, group sequential, always-valid p-values modernos. Pré-requisito crítico: regra de parada definida antes do teste e respeitada. Olhar resultado parcial e decidir intuitivamente parar (peeking) infla a taxa de falso positivo e não é teste sequencial — é armadilha estatística.

Quando usar holdout (grupo de controle)?

Use grupo de controle quando precisar medir incrementalidade real — se a ação inteira (campanha, programa, mídia paga) está gerando valor ou apenas correlação com comportamento que já aconteceria. Princípio: separar aleatoriamente parte da base (5-10% típico) que deliberadamente não recebe a ação, comparar resultados finais entre quem recebeu e o grupo de controle. Aplicações típicas: programa de e-mail, mídia paga, programa de fidelidade, push notification. Desafio principal é organizacional: times comerciais resistem porque grupo de controle "deixa receita na mesa". Sem patrocínio executivo, o programa de incrementalidade morre.

Como desenhar experimento de incrementalidade?

Estruturar grupo de controle (holdout) com aleatoriedade rigorosa: a divisão entre quem recebe e quem não recebe deve ser estatisticamente aleatória, não por conveniência. Tamanho típico: 5-10% da base. Prazo de avaliação adequado para capturar efeito (em programas de retenção, meses; em comércio eletrônico, dias). Métrica final (compra, retenção, cancelamento) e não apenas intermediária (clique, abertura). Rotação periódica do grupo para evitar viés permanente. Análise estatística que separa efeito real de variação natural. Resultado: diferença entre quem recebeu e quem não recebeu é o impacto incremental.

Multi-armed bandit em marketing funciona?

Funciona quando a pergunta justifica: tráfego alto que aprende rápido, métrica de feedback rápida, variantes que podem mudar de desempenho ao longo do tempo. Aplicações claras: recomendações em comércio eletrônico, anúncios em plataformas de busca, posições em página de destino com tráfego pesado. Não funciona quando volume é baixo (MAB não aprende rápido), métricas de feedback são lentas (não pode usar retenção como sinal imediato) ou decisões precisam ser explicadas em detalhe. Risco principal: implementar sem entender exploração vs explotação, perdendo capacidade de extrair aprendizagem do algoritmo.

DOE (design of experiments) em marketing existe?

Sim, mas o vocabulário "DOE" (design of experiments, originário de engenharia industrial e estatística clássica desde Ronald Fisher nos anos 1920) é menos usado em marketing. Princípios são os mesmos: definir variáveis controladas, variáveis de resposta, fatores de bloqueio, replicações. Em marketing, o vocabulário foi adaptado para teste A/B, multivariado, fatorial. Em empresas que trazem perfil de estatística clássica (CPG, pesquisa de mercado), o vocabulário DOE aparece em painéis (estimando elasticidade de variáveis com fatorial completo ou fracionário), em testes de loja física com vários fatores combinados e em modelagem de mix de marketing. A escolha de vocabulário não muda o fundamento.

Design de experimentos em marketing

Como este tema funciona na sua empresa

Design de experimentos em marketing

Por que teste A/B simples não cobre tudo

Catálogo de desenhos de experimento

Teste A/B (controle versus tratamento)

Teste multivariado (MVT)

Teste sequencial

Grupo de controle (holdout)

Multi-armed bandit (MAB)

Como escolher o desenho pela pergunta de negócio

Hipótese antes do método: a regra básica

Multivariado: quando vale o custo de complexidade

Teste sequencial: parar mais cedo sem inflar erro

Grupo de controle (holdout): medindo incrementalidade real

Multi-armed bandit em marketing

Cultura de experimentação: além do método

Erros comuns em design de experimentos

Sinais de que seu programa de experimentação precisa de evolução

Caminhos para estruturar um programa de experimentação

Seu programa de experimentação responde às perguntas certas?

Perguntas frequentes

Qual a diferença entre teste A/B e multivariado?

O que é teste sequencial?

Quando usar holdout (grupo de controle)?

Como desenhar experimento de incrementalidade?

Multi-armed bandit em marketing funciona?

DOE (design of experiments) em marketing existe?

Fontes e referências

Leia também