Calculadora
Selecciona el modo según lo que quieras calcular.
Cómo leer el gráfico
El eje horizontal representa el estadístico Z estandarizado \(Z = (\hat{p}_B - \hat{p}_A)/SE_0\), donde \(SE_0 = \sqrt{2\bar{p}(1-\bar{p})/n}\) y \(\bar{p}=(p_A+p_B)/2\).
- Curva azul (H₀): distribución de Z si no hubiera diferencia real entre grupos. Sigue una N(0,1). Las zonas rojas son las regiones de rechazo; su área total es α.
- Curva naranja punteada (H₁): distribución de Z si la diferencia real fuera p_B − p_A. Está desplazada respecto a H₀. La zona verde —área bajo H₁ dentro de la región de rechazo— es la potencia (1−β). La zona sin sombrear bajo la curva naranja dentro de la región de aceptación es β.
Cuanto mayor es la diferencia |p_B − p_A| o el tamaño muestral n, más se separan las curvas y mayor es la potencia.
Fundamento estadístico
Para el contraste de dos proporciones \(H_0: p_A = p_B\) con muestras iguales de tamaño n, el estadístico de contraste es:
\( Z = \frac{\hat{p}_B - \hat{p}_A}{\sqrt{2\bar{p}(1-\bar{p})/n}} \;\sim\; N(0,\,1) \text{ bajo } H_0 \)
donde \(\bar{p} = (p_A + p_B)/2\) es la proporción ponderada. Bajo la hipótesis alternativa \(H_1: p_B - p_A = \Delta\), el estadístico se distribuye aproximadamente como:
\( Z \;\sim\; N\!\left(\delta,\; \sigma_1^2\right) \quad \text{donde} \quad \delta = \frac{\Delta\sqrt{n}}{\sqrt{2\bar{p}(1-\bar{p})}},\quad \sigma_1 = \sqrt{\frac{p_A(1-p_A) + p_B(1-p_B)}{2\bar{p}(1-\bar{p})}} \)
Fórmulas de potencia
- Bilateral:
\( 1-\beta \;=\; 1 - \Phi\!\left(\frac{z_{\alpha/2}\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) + \Phi\!\left(\frac{-z_{\alpha/2}\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) \)
- Unilateral superior (\(H_a: p_B > p_A\)):
\( 1-\beta \;=\; 1 - \Phi\!\left(\frac{z_\alpha\cdot\sqrt{2\bar{p}(1-\bar{p})} - \Delta\sqrt{n}}{\sqrt{p_A(1-p_A)+p_B(1-p_B)}}\right) \)
Tamaño muestral por grupo
\( n = \left\lceil \dfrac{\left(z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})} + z_{1-\beta}\sqrt{p_A(1-p_A)+p_B(1-p_B)}\right)^2}{\Delta^2} \right\rceil \)
Diferencia mínima detectable (MDE)
El MDE es la mínima \(|\Delta|\) que consigue la potencia objetivo con el n disponible. Se calcula por búsqueda binaria sobre \(\Delta\).
Ejemplo resuelto
Un equipo de e-commerce quiere probar un nuevo flujo de pago (variante B) frente al actual (grupo A). La tasa de conversión de A es p_A = 0,12 y se espera que B mejore a p_B = 0,138 (+15 % relativo). Se diseña el experimento con α = 0,05, contraste bilateral y n = 1 500 usuarios por grupo.
Parámetros auxiliares:
\( \bar{p} = (0{,}12 + 0{,}138)/2 = 0{,}129 \)
\( \text{NullScale} = \sqrt{2 \times 0{,}129 \times 0{,}871} = \sqrt{0{,}2247} \approx 0{,}4740 \)
\( \text{AltScale} = \sqrt{0{,}12 \times 0{,}88 + 0{,}138 \times 0{,}862} = \sqrt{0{,}1056 + 0{,}1190} = \sqrt{0{,}2246} \approx 0{,}4739 \)
Potencia bilateral (\(z_{0{,}025} = 1{,}960\), \(n = 1500\)):
\( 1-\beta \approx 1 - \Phi\!\left(\frac{1{,}960 \times 0{,}4740 - 0{,}018\sqrt{1500}}{0{,}4739}\right) = 1 - \Phi\!\left(\frac{0{,}9290 - 0{,}6971}{0{,}4739}\right) = 1 - \Phi(0{,}489) \approx 0{,}313 \)
Con n = 1 500 por grupo y un lift del 15 %, la potencia es solo del ≈ 31 %: el experimento está muy infrapotenciado para este efecto. Para alcanzar el 80 % de potencia se necesitarían aproximadamente 5 443 usuarios por grupo.
Esto ilustra un error habitual en A/B testing: lanzar experimentos sin dimensionar correctamente la muestra para detectar el efecto de interés.
Cómo interpretar los resultados
Potencia
Una potencia del 80 % significa que si la diferencia real es p_B − p_A, el test rechazará H₀ el 80 % de las veces. Por debajo del 70 %, el experimento tiene alta probabilidad de no detectar efectos reales. Por encima del 90 %, el diseño es muy conservador: quizás puedes reducir la duración del experimento.
Error de tipo II (β)
Es la probabilidad de concluir que "no hay diferencia" cuando sí la hay. Con β = 0,20 hay un 20 % de probabilidad de perder una mejora real en la variante B. Este es el coste de lanzar experimentos con poca muestra.
Diferencia mínima detectable (MDE)
Con la muestra actual, cualquier diferencia más pequeña que el MDE no se detectará de forma fiable. Compara el MDE con el impacto mínimo de negocio relevante: si el MDE es mayor que ese umbral, el experimento no puede tomar la decisión correcta aunque se ejecute bien.
Recomendaciones para A/B testing
- Diseña siempre el experimento antes de lanzarlo. Parar anticipadamente cuando ves significación infla el error tipo I.
- Usa contraste bilateral salvo que puedas garantizar a priori que la variante solo puede mejorar.
- Con tráfico limitado, aumenta el efecto mínimo de interés o alarga la duración en lugar de bajar α.
- Para dimensionado completo (sample size, potencia y MDE a la vez), usa la calculadora completa de potencia A/B.
Preguntas frecuentes
- ¿Qué es la potencia estadística en un test A/B? La probabilidad de detectar una diferencia real entre los grupos A y B cuando esa diferencia existe. Con potencia = 80 %, el experimento detectará el efecto en 8 de cada 10 repeticiones.
- ¿Qué es el MDE? El efecto mínimo detectable: la diferencia más pequeña entre p_A y p_B que el experimento puede detectar con la potencia objetivo. Si el efecto real es más pequeño, el test probablemente no lo verá.
- ¿Cómo se relaciona el gráfico con la potencia? La curva azul es H₀ (no hay diferencia). Las zonas rojas son las regiones de rechazo (área = α). La curva naranja es H₁ (existe el efecto). El área verde es la potencia: fracción de H₁ que cae en la región de rechazo.
- ¿Cuándo usar contraste bilateral? En A/B testing se recomienda el bilateral porque la variante puede ser mejor o peor que el control. El unilateral solo está justificado si puedes garantizar a priori que la variante nunca empeora la métrica.