¿Qué es la potencia estadística en un test A/B?

La potencia (1−β) es la probabilidad de detectar una diferencia real entre los grupos A y B. Con potencia = 80 %, si la variante B es realmente mejor que A en la magnitud indicada, el test lo detectará en 8 de cada 10 experimentos.

¿Qué es el MDE en un test A/B?

El MDE (Minimum Detectable Effect, efecto mínimo detectable) es la diferencia absoluta mínima entre pA y pB que el experimento puede detectar con la potencia objetivo dada la muestra disponible. Si el efecto real es menor que el MDE, el test probablemente no lo detectará.

¿Cómo se relaciona el gráfico de regiones críticas con la potencia?

La curva azul es la distribución del estadístico bajo H₀ (no hay diferencia entre grupos). Las zonas rojas son las regiones de rechazo (área = α). La curva naranja es la distribución bajo H₁ (existe la diferencia p_B - p_A). El área verde es la potencia: la fracción de H₁ que cae en la región de rechazo.

¿Cuándo usar contraste bilateral frente a unilateral en A/B testing?

En A/B testing se recomienda el contraste bilateral porque la variante puede ser mejor o peor que el control en cualquier dirección. El unilateral solo está justificado si puedes garantizar a priori que la variante solo puede mejorar (nunca empeorar) la métrica.

Potencia test A/B dos proporciones

Calculadora

Selecciona el modo según lo que quieras calcular.

Conversión grupo A (p_A)

Conversión esperada grupo B (p_B)

Muestra por grupo (n)

Nivel de significación (α)

Tipo de contraste

Resultado pendiente…

Conversión grupo A (p_A)

Conversión esperada grupo B (p_B)

Nivel de significación (α)

Potencia objetivo (1−β)

Tipo de contraste

Resultado pendiente…

H₀: no hay diferencia entre grupos Región crítica (α) H₁: pB − pA = efecto real Potencia (1−β)

Cómo leer el gráfico

El eje horizontal representa el estadístico Z estandarizado \(Z = (\hat{p}_B - \hat{p}_A)/SE_0\), donde \(SE_0 = \sqrt{2\bar{p}(1-\bar{p})/n}\) y \(\bar{p}=(p_A+p_B)/2\).

Curva azul (H₀): distribución de Z si no hubiera diferencia real entre grupos. Sigue una N(0,1). Las zonas rojas son las regiones de rechazo; su área total es α.
Curva naranja punteada (H₁): distribución de Z si la diferencia real fuera p_B − p_A. Está desplazada respecto a H₀. La zona verde —área bajo H₁ dentro de la región de rechazo— es la potencia (1−β). La zona sin sombrear bajo la curva naranja dentro de la región de aceptación es β.

Cuanto mayor es la diferencia |p_B − p_A| o el tamaño muestral n, más se separan las curvas y mayor es la potencia.

Fundamento estadístico

Para el contraste de dos proporciones \(H_0: p_A = p_B\) con muestras iguales de tamaño n, el estadístico de contraste es:

\( Z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{2\bar{p}(1-\bar{p})/n}} \;\sim\; N(0,\,1) \text{ bajo } H_0 \)

donde \(\bar{p} = (p_A + p_B)/2\) es la proporción ponderada. Bajo la hipótesis alternativa \(H_1: p_B - p_A = \Delta\), el estadístico se distribuye aproximadamente como:

\( Z \;\sim\; N\!\left(\delta,\; \sigma_1^2\right) \quad \text{donde} \quad \delta = \frac{\Delta\sqrt{n}}{\sqrt{2\bar{p}(1-\bar{p})}},\quad \sigma_1 = \sqrt{\frac{p_A(1-p_A) + p_B(1-p_B)}{2\bar{p}(1-\bar{p})}} \)

Fórmulas de potencia

Bilateral:
\( 1-\beta \;=\; 1 - \Phi\!\left(\frac{z_{\alpha/2}\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) + \Phi\!\left(\frac{-z_{\alpha/2}\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) \)
Unilateral superior (\(H_a: p_B > p_A\)):
\( 1-\beta \;=\; 1 - \Phi\!\left(\frac{z_\alpha\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) \)

Tamaño muestral por grupo

\( n = \left\lceil \dfrac{\left(z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})} + z_{1-\beta}\sqrt{p_A(1-p_A)+p_B(1-p_B)}\right)^2}{\Delta^2} \right\rceil \)

Diferencia mínima detectable (MDE)

El MDE es la mínima \(|\Delta|\) que consigue la potencia objetivo con el n disponible. Se calcula por búsqueda binaria sobre \(\Delta\).

Ejemplo resuelto

Un equipo de e-commerce quiere probar un nuevo flujo de pago (variante B) frente al actual (grupo A). La tasa de conversión de A es p_A = 0,12 y se espera que B mejore a p_B = 0,138 (+15 % relativo). Se diseña el experimento con α = 0,05, contraste bilateral y n = 1 500 usuarios por grupo.

Parámetros auxiliares:

\( \bar{p} = (0{,}12 + 0{,}138)/2 = 0{,}129 \)

\( \text{NullScale} = \sqrt{2 \times 0{,}129 \times 0{,}871} = \sqrt{0{,}2247} \approx 0{,}4740 \)

\( \text{AltScale} = \sqrt{0{,}12 \times 0{,}88 + 0{,}138 \times 0{,}862} = \sqrt{0{,}1056 + 0{,}1190} = \sqrt{0{,}2246} \approx 0{,}4739 \)

Potencia bilateral (\(z_{0{,}025} = 1{,}960\), \(n = 1500\)):

\( 1-\beta \approx 1 - \Phi\!\left(\frac{1{,}960 \times 0{,}4740 - 0{,}018\sqrt{1500}}{0{,}4739}\right) = 1 - \Phi\!\left(\frac{0{,}9290 - 0{,}6971}{0{,}4739}\right) = 1 - \Phi(0{,}489) \approx 0{,}313 \)

Con n = 1 500 por grupo y un lift del 15 %, la potencia es solo del ≈ 31 %: el experimento está muy infrapotenciado para este efecto. Para alcanzar el 80 % de potencia se necesitarían aproximadamente 5 443 usuarios por grupo.

Esto ilustra un error habitual en A/B testing: lanzar experimentos sin dimensionar correctamente la muestra para detectar el efecto de interés.

Cómo interpretar los resultados

Potencia

Una potencia del 80 % significa que si la diferencia real es p_B − p_A, el test rechazará H₀ el 80 % de las veces. Por debajo del 70 %, el experimento tiene alta probabilidad de no detectar efectos reales. Por encima del 90 %, el diseño es muy conservador: quizás puedes reducir la duración del experimento.

Error de tipo II (β)

Es la probabilidad de concluir que "no hay diferencia" cuando sí la hay. Con β = 0,20 hay un 20 % de probabilidad de perder una mejora real en la variante B. Este es el coste de lanzar experimentos con poca muestra.

Diferencia mínima detectable (MDE)

Con la muestra actual, cualquier diferencia más pequeña que el MDE no se detectará de forma fiable. Compara el MDE con el impacto mínimo de negocio relevante: si el MDE es mayor que ese umbral, el experimento no puede tomar la decisión correcta aunque se ejecute bien.

Recomendaciones para A/B testing

Diseña siempre el experimento antes de lanzarlo. Parar anticipadamente cuando ves significación infla el error tipo I.
Usa contraste bilateral salvo que puedas garantizar a priori que la variante solo puede mejorar.
Con tráfico limitado, aumenta el efecto mínimo de interés o alarga la duración en lugar de bajar α.
Para dimensionado completo (sample size, potencia y MDE a la vez), usa la calculadora completa de potencia A/B.

Preguntas frecuentes

¿Qué es la potencia estadística en un test A/B? La probabilidad de detectar una diferencia real entre los grupos A y B cuando esa diferencia existe. Con potencia = 80 %, el experimento detectará el efecto en 8 de cada 10 repeticiones.
¿Qué es el MDE? El efecto mínimo detectable: la diferencia más pequeña entre p_A y p_B que el experimento puede detectar con la potencia objetivo. Si el efecto real es más pequeño, el test probablemente no lo verá.
¿Cómo se relaciona el gráfico con la potencia? La curva azul es H₀ (no hay diferencia). Las zonas rojas son las regiones de rechazo (área = α). La curva naranja es H₁ (existe el efecto). El área verde es la potencia: fracción de H₁ que cae en la región de rechazo.
¿Cuándo usar contraste bilateral? En A/B testing se recomienda el bilateral porque la variante puede ser mejor o peor que el control. El unilateral solo está justificado si puedes garantizar a priori que la variante nunca empeora la métrica.

Calculadora

Cómo leer el gráfico

Fundamento estadístico

Fórmulas de potencia

Tamaño muestral por grupo

Diferencia mínima detectable (MDE)

Ejemplo resuelto

Cómo interpretar los resultados

Potencia

Error de tipo II (β)

Diferencia mínima detectable (MDE)

Recomendaciones para A/B testing

Calculadoras relacionadas

Preguntas frecuentes