¿Qué diferencia hay respecto al contraste general de dos proporciones?

Ninguna matemática: el test Z es el mismo. Esta calculadora añade el intervalo de confianza para la diferencia, la corrección de Yates y métricas específicas de A/B (lift relativo).

¿Es válido con proporciones muy bajas?

Sí, pero requiere tamaños muestrales mayores para que la aproximación normal sea fiable. Como regla práctica, necesitas n·p ≥ 5 y n·(1−p) ≥ 5 en cada grupo.

¿Debo usar contraste bilateral o unilateral?

Si antes de ver los datos no sabes en qué dirección podría ir el efecto, usa bilateral. El unilateral tiene más potencia, pero solo es legítimo cuando la dirección se fijó a priori.

¿El p-valor = 0.04 significa que B es mejor al 96%?

No. El p-valor mide la probabilidad de observar un estadístico tan extremo o más si H₀ fuese cierta, no la probabilidad de que B sea mejor.

Test Z de conversión para A/B testing

Calculadora

Introduce los éxitos y tamaños de cada grupo para obtener el p-valor, el estadístico z y el intervalo de confianza para la diferencia.

Conversiones grupo A (x_A)

Visitantes grupo A (n_A)

Conversiones grupo B (x_B)

Visitantes grupo B (n_B)

Tipo de contraste

Nivel de significación (α)

Aplicar corrección por continuidad de Yates

Resultado pendiente…

Hipótesis y estadístico

Se contrasta \(H_0: p_A = p_B\) frente a la alternativa seleccionada. Bajo \(H_0\), ambos grupos comparten la misma proporción poblacional, por lo que se usa la proporción combinada \(\hat{p}\) para estimar el error estándar.

\( z = \dfrac{\hat{p}_B - \hat{p}_A}{\sqrt{\hat{p}(1-\hat{p})\!\left(\tfrac{1}{n_A}+\tfrac{1}{n_B}\right)}}, \quad \hat{p}=\dfrac{x_A+x_B}{n_A+n_B} \)

Corrección por continuidad de Yates

Con muestras pequeñas, la distribución discreta del estadístico se aproxima mejor a la normal restando la corrección:

\( z_{\text{corr}} = \dfrac{\operatorname{sgn}(\hat{p}_B - \hat{p}_A)\cdot\max\!\left(0,\;\left|\hat{p}_B - \hat{p}_A\right| - \tfrac{1}{2}\!\left(\tfrac{1}{n_A}+\tfrac{1}{n_B}\right)\right)}{\sqrt{\hat{p}(1-\hat{p})\!\left(\tfrac{1}{n_A}+\tfrac{1}{n_B}\right)}} \)

Intervalo de confianza para la diferencia

El IC para \(\Delta = p_B - p_A\) se construye con el error estándar Wald (sin pooling), más conservador que el del contraste:

\( \Delta \pm z_{\alpha/2}\sqrt{\dfrac{\hat{p}_A(1-\hat{p}_A)}{n_A} + \dfrac{\hat{p}_B(1-\hat{p}_B)}{n_B}} \)

Ejemplo resuelto: test Z en A/B testing

Con A = 10.000 visitas y 420 conversiones, B = 10.000 visitas y 480 conversiones, la herramienta compara dos proporciones independientes. Usa contraste bilateral si solo quieres detectar diferencia, o unilateral únicamente si la hipótesis de mejora se fijó antes de ver los datos.

Cuándo usar la corrección de Yates

La corrección por continuidad mejora la aproximación a la distribución normal cuando los tamaños muestrales son pequeños (generalmente n < 50 por grupo) o cuando la proporción está cerca de 0 o 1. Con muestras grandes produce resultados casi idénticos al test sin corrección y resulta ligeramente más conservadora.

Cómo interpretar el resultado

El estadístico z mide cuántas desviaciones típicas se aleja la diferencia observada \(\hat{p}_B - \hat{p}_A\) de cero bajo la hipótesis nula. Cuanto más grande sea \(|z|\) en valor absoluto, más alejados están los datos de lo que esperaríamos si no hubiera ninguna diferencia real. El p-valor traduce ese estadístico a una probabilidad: es la probabilidad de obtener un z tan extremo o más en experimentos repetidos donde H₀ fuese cierta. Un p-valor < α (habitualmente 0.05) no significa que B sea mejor con probabilidad 1 − p; significa que la evidencia contra la hipótesis de igualdad es suficientemente fuerte según el umbral elegido.

El lift relativo \(((\hat{p}_B - \hat{p}_A) / \hat{p}_A) \times 100\,\%\) expresa la mejora de B en términos porcentuales sobre la tasa base de A. Es la métrica más directa para juzgar la relevancia práctica del resultado: un experimento puede ser estadísticamente significativo con un lift del 0.5 % que no tiene impacto de negocio real, y otro puede no alcanzar significación pero mostrar un lift del 15 % que merece seguir investigando con más muestra.

El intervalo de confianza para \(\Delta = p_B - p_A\) complementa el p-valor con información sobre la magnitud y la incertidumbre de la diferencia. Si el IC no incluye el cero, la diferencia es significativa al nivel elegido. Más importante, los límites del IC indican el rango plausible de la diferencia real: si incluso el extremo inferior del IC representa una mejora suficientemente grande para tu negocio, puedes confiar en implementar B. Si el IC incluye valores negativos junto con positivos, la dirección del efecto es incierta y conviene extender el experimento.

Preguntas frecuentes

¿Qué diferencia hay respecto al contraste general de dos proporciones? Ninguna matemática: el test Z es el mismo. Esta calculadora añade el intervalo de confianza para la diferencia, la corrección de Yates y métricas específicas de A/B (lift relativo).
¿Es válido con proporciones muy bajas? Sí, pero requiere tamaños muestrales mayores para que la aproximación normal sea fiable. Como regla práctica, necesitas n·p ≥ 5 y n·(1−p) ≥ 5 en cada grupo.
¿Debo usar contraste bilateral o unilateral? Si antes de ver los datos no sabes en qué dirección podría ir el efecto, usa bilateral. El unilateral tiene más potencia, pero solo es legítimo cuando la dirección se fijó a priori.
¿El p-valor = 0.04 significa que B es mejor al 96%? No. El p-valor mide la probabilidad de observar un estadístico tan extremo o más si H₀ fuese cierta, no la probabilidad de que B sea mejor.