¿La simulación usa muestras binomiales?

Cada réplica aproxima x_A ~ Bin(n, p_A) y x_B ~ Bin(n, p_B) con la aproximación normal de De Moivre-Laplace. Es adecuada cuando n·p y n·(1−p) no son pequeños; para muestras pequeñas o proporciones extremas conviene interpretar la simulación como aproximada.

¿Por qué la potencia empírica no coincide exactamente con la teórica?

Siempre hay varianza de muestreo. Con 5 000 réplicas, el error estándar de la proporción simulada es de aproximadamente ±0.006 para potencias en torno al 80%.

¿Puedo simular con p_A = p_B para verificar el nivel α?

Sí: introduce el mismo valor en p_A y p_B y comprueba que la tasa de rechazo empírica se aproxima a α.

¿Las réplicas son independientes?

Sí: cada réplica genera nuevas muestras sin dependencia con las anteriores.

Simulación de experimentos A/B online

Parámetros de simulación

Define las tasas de conversión verdaderas, el tamaño por grupo y el número de réplicas.

Tasa verdadera grupo A (p_A)

Tasa verdadera grupo B (p_B)

Visitantes por grupo (n)

Número de réplicas

Nivel de significación (α)

Tipo de contraste

Resultado pendiente…

Qué simula esta herramienta

En cada réplica, la calculadora genera muestras aleatorias de tamaño n de dos distribuciones Bernoulli con las tasas verdaderas p_A y p_B, calcula el estadístico z del test de dos proporciones y registra si se rechaza H₀. Tras N réplicas, obtiene la distribución empírica de z y p-valores, y compara la tasa de rechazo con la potencia teórica.

\( z^{(i)} = \dfrac{\hat{p}_B^{(i)} - \hat{p}_A^{(i)}}{\sqrt{\hat{p}^{(i)}(1-\hat{p}^{(i)})\left(\tfrac{1}{n_A}+\tfrac{1}{n_B}\right)}} \)

Si p_A = p_B, la tasa de rechazo empírica estima el error de tipo I real (debería aproximarse a α). Si p_A ≠ p_B, estima la potencia empírica.

Ejemplo resuelto

Un equipo de marketing digital quiere evaluar si un nuevo asunto de correo electrónico (variante B) mejora la tasa de apertura respecto al asunto actual (variante A). Los datos históricos indican que la tasa de apertura actual es del p_A = 0,22 (22 %). Se espera que la variante B alcance una tasa de p_B = 0,26 (26 %), una mejora absoluta de 4 puntos porcentuales.

El equipo fija α = 0,05 bilateral y potencia del 80 %, lo que con la fórmula analítica estándar arroja aproximadamente n = 476 usuarios por grupo (952 en total). Antes de lanzar el experimento real, decide validar estos resultados mediante simulación Monte Carlo con N = 5 000 réplicas.

En cada réplica i la herramienta genera \( n_A = n_B = 476 \) observaciones Bernoulli con las tasas verdaderas, calcula el estadístico z del test de dos proporciones y registra si se rechaza H₀:

\( z^{(i)} = \dfrac{\hat{p}_B^{(i)} - \hat{p}_A^{(i)}}{\sqrt{\hat{p}^{(i)}(1-\hat{p}^{(i)})\!\left(\tfrac{1}{476}+\tfrac{1}{476}\right)}} \)

Tras las 5 000 réplicas, la simulación da los siguientes resultados: la tasa de rechazo empírica es del 80,3 %, en excelente concordancia con la potencia teórica del 80 %. El histograma del estadístico z se desplaza hacia la derecha respecto a la N(0,1) nula, con la media empírica en torno a \( \bar{z} \approx 1{,}45 \), reflejando el efecto real de \( \Delta = 0{,}04 \). La distribución de p-valores muestra una fuerte concentración cerca de 0: en el 80 % de las réplicas el p-valor queda por debajo de 0,05.

Para comprobar el control del error de tipo I, el equipo también ejecuta la simulación bajo H₀ (fijando p_B = p_A = 0,22). Con las mismas 5 000 réplicas, la tasa de rechazo empírica resulta del 4,9 %, muy próxima al nivel nominal α = 0,05, y la distribución de p-valores es aproximadamente uniforme en [0, 1], tal y como predice la teoría.

La conclusión práctica es doble: el tamaño de muestra calculado analíticamente es correcto (la potencia empírica coincide con la teórica), y el test mantiene un buen control del error de tipo I. El equipo puede lanzar el experimento con confianza, sabiendo que si la mejora real es de 4 pp tendrá una probabilidad del 80 % de detectarla con resultados estadísticamente significativos.

Cómo interpretar el resultado

La simulación Monte Carlo permite verificar empíricamente las propiedades del test: si el error de tipo I es realmente α cuando p_A = p_B, si la potencia coincide con la teórica, y cómo se comporta la distribución del estadístico z en la práctica. Es especialmente útil cuando quieres entender el comportamiento del test bajo condiciones concretas o cuando los supuestos del modelo no se cumplen exactamente. La tasa de rechazo empírica que devuelve la simulación es la estimación directa de la potencia: cuántas veces en 100 experimentos idénticos concluirías correctamente que B es diferente de A.

Cómo leer el histograma de z

Bajo H₀ (p_A = p_B), el estadístico z sigue aproximadamente una N(0,1): el histograma debería ser simétrico centrado en 0, y la proporción de barras rojas (zona de rechazo) debería aproximarse a α. Bajo H₁ (p_A ≠ p_B), el histograma se desplaza hacia la dirección del efecto: cuanto mayor es la diferencia real entre tasas o mayor el tamaño muestral, más pronunciado es ese desplazamiento y mayor la proporción de réplicas que caen en la zona de rechazo.

Cómo leer la distribución de p-valores

Bajo H₀ perfecta, los p-valores siguen una distribución Uniforme(0,1): la barra de 0 a 0.05 debería contener aproximadamente el 5 % de las réplicas, y todas las barras deberían tener alturas similares. Bajo H₁, los p-valores se concentran cerca de 0: la proporción de réplicas con p < α es la potencia empírica. Una distribución de p-valores con marcada concentración en la primera barra y descenso rápido indica que el test tiene buena capacidad para detectar el efecto configurado.

Preguntas frecuentes

¿La simulación usa muestras binomiales? Cada réplica aproxima x_A ~ Bin(n, p_A) y x_B ~ Bin(n, p_B) con la aproximación normal de De Moivre-Laplace. Es adecuada cuando n·p y n·(1−p) no son pequeños; para muestras pequeñas o proporciones extremas conviene interpretar la simulación como aproximada.
¿Por qué la potencia empírica no coincide exactamente con la teórica? Siempre hay varianza de muestreo. Con 5 000 réplicas, el error estándar de la proporción simulada es de aproximadamente ±0.006 para potencias en torno al 80%.
¿Puedo simular con p_A = p_B para verificar el nivel α? Sí: introduce el mismo valor en p_A y p_B y comprueba que la tasa de rechazo empírica se aproxima a α.
¿Las réplicas son independientes? Sí: cada réplica genera nuevas muestras sin dependencia con las anteriores.