¿El cálculo de n asume asignación igual 1:1?

Sí. La fórmula implementada maximiza la potencia con asignación balanceada. Para asignación desigual usa la calculadora general de dos proporciones.

¿Qué diferencia hay entre contraste bilateral y unilateral?

El bilateral detecta efectos en ambas direcciones (p_B mayor o menor que p_A) y es el más usado. El unilateral solo detecta efectos en una dirección y necesita menos muestra, pero es válido únicamente si de antemano sabes que la variante solo puede mejorar, nunca empeorar.

¿El MDE es el efecto que espero o el mínimo que importa?

El MDE es el mínimo detectable con la muestra dada. Deberías dimensionar el experimento para que su MDE sea igual o menor al efecto mínimo que tendría relevancia práctica para tu negocio.

¿Por qué el gráfico muestra lifts relativos y no el efecto exacto que introduje?

El gráfico ilustra cómo varía la potencia con n para tres escenarios de referencia (+5 %, +10 %, +20 % relativo sobre p_A). Tu cálculo concreto está en el cuadro de resultados; el gráfico aporta contexto visual para entender la sensibilidad general del experimento.

MDE, potencia y tamaño muestral para A/B testing

Calculadora

Selecciona el modo según lo que quieras calcular e introduce los parámetros restantes.

Tasa base grupo A (p_A)

Tasa esperada grupo B (p_B)

Nivel de significación (α)

Potencia deseada (1−β)

Tipo de contraste

Resultado pendiente…

Tasa base grupo A (p_A)

Tasa grupo B (p_B)

Muestra por grupo (n)

Nivel de significación (α)

Tipo de contraste

Resultado pendiente…

Tasa base grupo A (p_A)

Muestra por grupo (n)

Nivel de significación (α)

Potencia objetivo (1−β)

Tipo de contraste

Resultado pendiente…

Cómo leer el gráfico

El gráfico muestra la curva de potencia: cómo varía la probabilidad de detectar el efecto a medida que aumenta el tamaño muestral por grupo.

Eje X (horizontal) — tamaño muestral por grupo (n). Cuanto más a la derecha, más usuarios por variante.
Eje Y (vertical) — potencia (1−β), entre 0 y 1. El objetivo habitual es alcanzar al menos 0.80.
Cada línea de color representa un tamaño de efecto diferente expresado como lift relativo sobre p_A (+5 %, +10 %, +20 %). Efectos mayores (línea amarilla) se detectan con menos muestra; efectos pequeños (línea azul) requieren muchos más usuarios.
Línea vertical discontinua — aparece cuando calculas con un n fijo (modos Potencia y MDE) y marca exactamente dónde está tu muestra actual en las curvas.

Cómo usarlo en la práctica: si tu n cae en la parte empinada de la curva, añadir más usuarios mejora la potencia notablemente. Si ya estás en la zona plana (parte alta), agregar muestra apenas aporta. Si las curvas del efecto que te interesa están todas por debajo de 0.80 en tu n actual, el experimento es demasiado pequeño para ser fiable.

Conceptos clave antes de empezar

Estos tres parámetros controlan el equilibrio entre riesgo, recursos y sensibilidad del experimento. Entenderlos es fundamental para interpretar cualquier resultado.

Nivel de significación α — riesgo de falso positivo

Es la probabilidad de concluir que B es mejor que A cuando en realidad no hay diferencia. Con α = 0.05, uno de cada 20 experimentos donde no existe efecto real dará un resultado "estadísticamente significativo" por puro azar. Reducir α disminuye los falsos positivos, pero exige más muestra para mantener la potencia.

Potencia estadística 1−β — capacidad de detectar un efecto real

Es la probabilidad de sí detectar la diferencia cuando realmente existe. Con potencia = 80 % y un efecto real igual al que hayas especificado, el experimento lo detectará correctamente 8 de cada 10 veces. El 20 % restante son falsos negativos (β): el efecto existe pero el test no lo ve. En decisiones críticas conviene subir la potencia a 90 % o más.

MDE — efecto mínimo detectable

Es la diferencia absoluta más pequeña entre p_A y p_B que el experimento puede detectar con la potencia y α configurados. Si el verdadero efecto es menor que el MDE, el test probablemente no lo detectará aunque exista. El MDE depende directamente de n: cuanta más muestra, menor MDE, y por tanto mayor sensibilidad.

Tasa base p_A y tasa esperada p_B

p_A es la tasa de conversión actual del grupo de control (por ejemplo, 12 % de clicks → 0.12). p_B es la tasa que esperas, o la mínima mejora que te importaría detectar en la variante. La diferencia \(\Delta = p_B - p_A\) es el efecto del experimento.

Fórmulas utilizadas

Para la comparación de dos proporciones con asignación 1:1, el tamaño muestral necesario por grupo es:

\( n = \left\lceil \dfrac{\left(z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})} + z_\beta\sqrt{p_A(1-p_A)+p_B(1-p_B)}\right)^2}{(p_A - p_B)^2} \right\rceil \)

donde \(\bar{p} = (p_A + p_B)/2\), \(z_{\alpha/2}\) es el cuantil normal para el nivel de significación bilateral (o \(z_{\alpha}\) en unilateral) y \(z_{1-\beta}\) el cuantil para la potencia deseada.

La potencia dado n se obtiene con la aproximación normal equivalente; en contraste bilateral se suman ambas colas de rechazo:

\( 1-\beta \approx P\!\left(\hat{p}_B-\hat{p}_A > z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})/n}\right) + P\!\left(\hat{p}_B-\hat{p}_A < -z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})/n}\right) \)

El MDE se obtiene por búsqueda binaria sobre el efecto que consigue la potencia objetivo con el n disponible.

Ejemplo resuelto

Un equipo de e-commerce quiere probar un nuevo flujo de pago simplificado (variante B) frente al flujo actual (variante A). La tasa de conversión actual es del 12 % y el equipo considera que solo merece la pena implementar el cambio si mejora al menos 2 puntos porcentuales, es decir, la tasa objetivo de B es del 14 %. El experimento se diseña con α = 0,05 bilateral y potencia del 80 % (β = 0,20).

Se calculan los parámetros auxiliares. La media ponderada de ambas tasas es \( \bar{p} = (0{,}12 + 0{,}14)/2 = 0{,}13 \). Los cuantiles necesarios son \( z_{\alpha/2} = z_{0{,}025} = 1{,}960 \) y \( z_{1-\beta} = z_{0{,}80} = 0{,}842 \). La fórmula del tamaño muestral por grupo es:

\( n = \left\lceil \dfrac{\left(z_{\alpha/2}\sqrt{2\bar{p}(1-\bar{p})} + z_\beta\sqrt{p_A(1-p_A)+p_B(1-p_B)}\right)^2}{(p_A - p_B)^2} \right\rceil \)

Sustituyendo los valores:

\( n = \left\lceil \dfrac{\left(1{,}960\,\sqrt{2 \times 0{,}13 \times 0{,}87} + 0{,}842\,\sqrt{0{,}12 \times 0{,}88 + 0{,}14 \times 0{,}86}\right)^2}{(0{,}12 - 0{,}14)^2} \right\rceil \)

\( = \left\lceil \dfrac{\left(1{,}960 \times 0{,}4757 + 0{,}842 \times 0{,}4754\right)^2}{0{,}0004} \right\rceil = \left\lceil \dfrac{(0{,}9324 + 0{,}4003)^2}{0{,}0004} \right\rceil = \left\lceil \dfrac{(1{,}3327)^2}{0{,}0004} \right\rceil \approx \mathbf{4\,438} \text{ por grupo} \)

El experimento requiere aproximadamente 4 438 usuarios por grupo (8 876 en total). Si el sitio recibe 3 000 visitas diarias y se asigna el 50 % al experimento, el tráfico necesario tarda unos 6 días en acumularse. Con una tasa de conversión real de B = 14 %, la probabilidad de detectar la mejora es del 80 %; si la mejora real es mayor (p. ej., 15 %), la potencia efectiva superará el 95 %.

Cómo interpretar el resultado

Dependiendo del modo seleccionado, la calculadora devuelve una de las tres métricas clave del diseño experimental. Cada una responde a una pregunta distinta y debe leerse de forma diferente.

Modo: Tamaño muestral

La calculadora devuelve el número mínimo de usuarios por grupo necesarios para que el experimento tenga la potencia deseada. Por ejemplo, si obtienes n = 2 000, necesitas 2 000 usuarios en el grupo A y otros 2 000 en el grupo B, es decir 4 000 en total. Si lanzas el experimento con menos usuarios, la probabilidad de detectar el efecto real cae por debajo del umbral que has fijado y aumentan los falsos negativos.

El resultado también muestra el efecto absoluto Δ (diferencia en puntos porcentuales entre p_A y p_B) y el lift relativo (cuánto sube la tasa en términos porcentuales respecto a la base). Estos dos números ayudan a juzgar si el efecto que estás diseñando detectar es realista para tu negocio.

Modo: Potencia

Con una muestra fija (porque ya tienes los datos o sabes cuánto tráfico recibirás), la potencia te dice qué probabilidad tienes de detectar la diferencia especificada. Una potencia del 55 %, por ejemplo, significa que aunque la variante sea realmente mejor en la magnitud indicada, la mitad de las veces el test no lo detectará. Si la potencia es baja, debes plantearte: (a) esperar más tiempo para acumular más muestra, o (b) aceptar que solo detectarás efectos más grandes.

El resultado incluye también cuántos usuarios necesitarías para alcanzar el 80 % de potencia, lo que te sirve de referencia para saber cuánto te falta.

Modo: MDE

Dada la muestra disponible, el MDE te dice cuál es la diferencia mínima que puedes detectar de forma fiable. Si tu MDE es ±3 pp y la mejora real de tu variante es de 1 pp, el experimento no la verá con la potencia objetivo. Antes de lanzar, compara el MDE con el efecto mínimo que tendría impacto de negocio real: si el MDE es mayor, el test no sirve para tomar esa decisión.

El resultado muestra también los valores concretos de p_B que corresponden al MDE hacia arriba y hacia abajo, para que puedas razonar en términos absolutos de tasa de conversión.

Recomendaciones prácticas

Potencia ≥ 0.80 es el mínimo recomendado; usa 0.90 para decisiones críticas o cuando el coste de un falso negativo sea alto.
α = 0.05 es el estándar; considera α = 0.01 si el coste de un falso positivo es elevado (lanzar una variante que en realidad no mejora).
Fija el tamaño muestral antes de lanzar el experimento. Pararlo antes de alcanzar n o seguir hasta ver significación infla el error de tipo I.
El MDE relativo suele ser más relevante que el absoluto: un MDE del 10 % sobre una tasa base del 5 % equivale a p_B = 0.055, una diferencia de solo 0.5 pp.
Con tráfico limitado, acepta detectar solo efectos más grandes (MDE mayor) o extiende la duración del experimento en lugar de bajar α para compensar.

Preguntas frecuentes

¿El cálculo de n asume asignación igual 1:1? Sí. La fórmula implementada maximiza la potencia con asignación balanceada. Para asignación desigual usa la calculadora general de dos proporciones.
¿Qué diferencia hay entre contraste bilateral y unilateral? El bilateral detecta efectos en ambas direcciones (p_B mayor o menor que p_A) y es el más usado. El unilateral solo detecta efectos en una dirección y necesita menos muestra, pero es válido únicamente si de antemano sabes que la variante solo puede mejorar, nunca empeorar.
¿El MDE es el efecto que espero o el mínimo que importa? El MDE es el mínimo detectable con la muestra dada. Deberías dimensionar el experimento para que su MDE sea igual o menor al efecto mínimo que tendría relevancia práctica para tu negocio.
¿Por qué el gráfico muestra lifts relativos y no el efecto exacto que introduje? El gráfico ilustra cómo varía la potencia con n para tres escenarios de referencia (+5 %, +10 %, +20 % relativo sobre p_A). Tu cálculo concreto está en el cuadro de resultados; el gráfico aporta contexto visual para entender la sensibilidad general del experimento.

Calculadora

Cómo leer el gráfico

Conceptos clave antes de empezar

Nivel de significación α — riesgo de falso positivo

Potencia estadística 1−β — capacidad de detectar un efecto real

MDE — efecto mínimo detectable

Tasa base p_A y tasa esperada p_B

Fórmulas utilizadas

Ejemplo resuelto

Cómo interpretar el resultado

Modo: Tamaño muestral

Modo: Potencia

Modo: MDE

Recomendaciones prácticas

Calculadoras relacionadas

Preguntas frecuentes