Test A/B

Test A/B bayesiano — Beta-Binomial

Obtén la probabilidad directa de que B supere a A, los intervalos de credibilidad y las distribuciones posteriores de las tasas de conversión.

Calculadora

Introduce los datos del experimento y los parámetros de la prior para obtener el análisis bayesiano completo.

Resultado pendiente…

Modelo Beta-Binomial

En el modelo bayesiano conjugado para proporciones, la prior es una distribución Beta y la likelihood es binomial. La posterior resultante es también una Beta, lo que permite cálculos analíticos exactos.

\( p_A \sim \text{Beta}(\alpha_0, \beta_0) \xrightarrow{\text{datos}} p_A \mid \text{datos} \sim \text{Beta}(\alpha_0 + x_A,\; \beta_0 + n_A - x_A) \)

\( p_B \sim \text{Beta}(\alpha_0, \beta_0) \xrightarrow{\text{datos}} p_B \mid \text{datos} \sim \text{Beta}(\alpha_0 + x_B,\; \beta_0 + n_B - x_B) \)

Elección de la prior

La prior Beta(1, 1) es uniforme: expresa ignorancia total sobre la tasa de conversión. Una prior Beta(α₀, β₀) con α₀ + β₀ grande equivale a tener datos históricos previos. La calculadora permite personalizarla.

P(B > A) mediante Monte Carlo

La probabilidad de que la tasa de conversión de B supere a la de A se estima muestreando de ambas posteriores:

\( P(p_B > p_A) \approx \frac{1}{N}\sum_{i=1}^{N} \mathbf{1}\!\left[p_B^{(i)} > p_A^{(i)}\right], \quad p_A^{(i)}, p_B^{(i)} \sim \text{posteriores} \)

Ejemplo resuelto

Un equipo de producto quiere mejorar la tasa de registro en la página de inicio de una aplicación SaaS. La versión actual (A) tiene una tasa de conversión conocida de aproximadamente el 8 %. La variante B incorpora un nuevo titular y un botón de llamada a la acción más prominente. Se adopta una prior no informativa Beta(1, 1) para ambas variantes, que expresa ignorancia total sobre la tasa real antes de observar datos.

Tras 14 días de experimento se recogen los siguientes datos: el grupo A recibe 1 200 visitantes y registra 94 conversiones; el grupo B recibe 1 200 visitantes y registra 113 conversiones.

La actualización bayesiana es inmediata gracias a la conjugación Beta-Binomial. La distribución posterior de cada tasa es:

\( p_A \mid \text{datos} \sim \text{Beta}(1 + 94,\; 1 + 1\,200 - 94) = \text{Beta}(95,\; 1\,107) \)

\( p_B \mid \text{datos} \sim \text{Beta}(1 + 113,\; 1 + 1\,200 - 113) = \text{Beta}(114,\; 1\,088) \)

La media posterior de A es \( \hat{p}_A = 95/(95+1\,107) \approx 7{,}9\,\% \) y la de B es \( \hat{p}_B = 114/(114+1\,088) \approx 9{,}5\,\% \). Mediante Monte Carlo con 30 000 muestras extraídas de ambas distribuciones posteriores se estima la probabilidad de que B supere a A:

\( P(p_B > p_A) \approx 0{,}962 \)

El lift esperado de B sobre A es aproximadamente \( (9{,}5 - 7{,}9)/7{,}9 \approx +20\,\% \) en términos relativos. Con una probabilidad del 96,2 % de que la variante B sea genuinamente mejor, el equipo supera el umbral de decisión habitual (95 %) y puede desplegar B como nueva versión por defecto, estimando que el cambio generará alrededor de 16 registros adicionales por cada 1 000 visitas.

Ventajas del enfoque bayesiano

  • P(B > A) es directamente interpretable por stakeholders sin formación estadística.
  • No requiere fijar el tamaño muestral a priori; puede actualizarse con datos nuevos (aunque hay que controlar el peeking).
  • La prior permite incorporar conocimiento histórico sobre la tasa de conversión base.
  • Evita el problema del p-valor: no hay umbral binario de significación.

Cómo interpretar el resultado

El resultado central del análisis bayesiano es P(B > A): la probabilidad posterior de que la tasa de conversión de B sea genuinamente superior a la de A, dado lo observado. A diferencia del p-valor frecuentista, esta probabilidad es directamente interpretable: si P(B > A) = 0.97, significa que, con los datos actuales, hay un 97 % de credibilidad en que B supera a A. En la práctica, valores por encima de 0.95 suelen considerarse suficiente evidencia para tomar la decisión de implementar la variante B, aunque el umbral exacto depende del contexto y del coste relativo de los errores posibles.

Las distribuciones posteriores representan el conocimiento actualizado sobre la tasa de conversión de cada variante tras combinar la prior con los datos del experimento. Siguiendo el modelo Beta-Binomial, la posterior de A es \(\text{Beta}(\alpha_0 + x_A,\; \beta_0 + n_A - x_A)\) y la de B es \(\text{Beta}(\alpha_0 + x_B,\; \beta_0 + n_B - x_B)\). La media de cada posterior es la estimación puntual de la tasa real; cuando las dos distribuciones se solapan poco en el gráfico, la diferencia entre variantes es clara; cuando el solapamiento es grande, la incertidumbre es alta y conviene seguir recogiendo datos.

El intervalo de credibilidad al nivel seleccionado (90 %, 95 % o 99 %) indica el rango de valores de la tasa de conversión que contiene el nivel de credibilidad seleccionado de la masa posterior. A diferencia del intervalo de confianza frecuentista, puede interpretarse directamente: con un nivel del 95 %, "hay un 95 % de probabilidad de que la tasa real de B esté entre estos dos valores" (y de forma análoga para el 90 % o el 99 %). Si los intervalos de A y B no se solapan, la evidencia de diferencia es muy sólida. El lift esperado complementa este análisis mostrando la mejora relativa media de B sobre A según las posteriores, un indicador de relevancia práctica más directo que el p-valor.

Preguntas frecuentes

  • ¿Qué prior usar si no tengo datos históricos? Beta(1, 1), la prior uniforme. Si tienes tasas de conversión históricas, puedes parametrizar la prior como si tuvieras α₀ éxitos y β₀ fracasos previos.
  • ¿Cuántas muestras Monte Carlo usa la calculadora? 30 000. Esto da un error estándar de estimación de P(B > A) de aproximadamente ±0.003 para valores en torno a 0.5.
  • ¿Puedo usar esto con tamaños muestrales pequeños? Sí. La mayor ventaja del enfoque bayesiano es que funciona correctamente con muestras pequeñas, donde el test Z puede ser impreciso.
  • ¿Cuál es la diferencia entre P(B > A) = 0.97 y p-valor = 0.03? El p-valor mide la probabilidad de observar datos tan extremos bajo H₀; P(B > A) mide directamente cuánto crees que B supera a A dado lo que has observado. La segunda es más intuitiva.