¿Cuándo el IC indica diferencia significativa?

Cuando el valor 0 queda fuera del intervalo [L, U], la diferencia de proporciones es significativa con el nivel de confianza elegido.

¿Qué diferencia se calcula?

La calculadora estima p₁ − p₂, es decir, la proporción del grupo 1 menos la proporción del grupo 2.

¿Cuándo conviene usar Newcombe-Wilson?

Es recomendable cuando las muestras son pequeñas, las proporciones están cerca de 0 o 1, o la condición normal de Wald no se cumple.

IC diferencia de proporciones

Calculadora

Introduce los éxitos y tamaños muestrales de cada grupo para obtener el intervalo de confianza para p₁ − p₂.

Éxitos grupo 1 (x₁)

Tamaño muestral grupo 1 (n₁)

Éxitos grupo 2 (x₂)

Tamaño muestral grupo 2 (n₂)

Nivel de confianza

Método

Nivel de confianza personalizado (0–1)

Resultado pendiente…

Explicación

Cuando se comparan dos grupos independientes (por ejemplo, conversión en A/B testing, prevalencia en dos poblaciones o porcentaje de satisfacción por segmento), el intervalo de confianza para la diferencia de proporciones cuantifica el tamaño de la diferencia y su incertidumbre.

La calculadora estima \(p_1 - p_2\) a partir de \(\hat{p}_1 = x_1/n_1\) y \(\hat{p}_2 = x_2/n_2\). Si el intervalo contiene el 0, la diferencia observada puede ser compatible con ausencia de diferencia al nivel de confianza elegido.

Denotamos por \(C\) el nivel de confianza y por \(\alpha=1-C\) el área total fuera del intervalo. Para un 95 % de confianza, \(C=0{,}95\), \(\alpha=0{,}05\) y \(\alpha/2=0{,}025\) en cada cola.

Método de Wald (aproximación normal)

\( (\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \cdot \sqrt{\dfrac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \dfrac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \)

Es el método clásico y resulta adecuado cuando en ambos grupos hay suficientes éxitos y fracasos: \(n_i\hat{p}_i \geq 5\) y \(n_i(1-\hat{p}_i) \geq 5\).

Método de Newcombe-Wilson (recomendado)

El método de Newcombe-Wilson no aplica directamente la normal a la diferencia \(\hat{p}_1-\hat{p}_2\). Primero calcula, por separado, un intervalo score de Wilson para cada proporción: \([L_1, U_1]\) para \(p_1\) y \([L_2, U_2]\) para \(p_2\). La idea viene del trabajo de Newcombe (1998), que comparó varios métodos para la diferencia de proporciones y destacó el buen comportamiento de los métodos basados en Wilson.

Después combina las distancias desde cada proporción observada hasta sus límites Wilson, conservando el signo de la diferencia estimada \(d = \hat{p}_1 - \hat{p}_2\). La combinación no es simplemente \([L_1-U_2, U_1-L_2]\): se suman cuadráticamente las incertidumbres de ambos grupos para construir cada extremo del intervalo:

\( L = d - \sqrt{(\hat{p}_1-L_1)^2 + (U_2-\hat{p}_2)^2} \)

\( U = d + \sqrt{(U_1-\hat{p}_1)^2 + (\hat{p}_2-L_2)^2} \)

Esta combinación suele mantener mejor la cobertura real del intervalo que Wald, especialmente con muestras pequeñas o proporciones cercanas a 0 o 1. Por eso es una buena opción por defecto para comparar dos porcentajes independientes. En esta página se usa la versión sin corrección de continuidad, que es la forma habitual para una calculadora rápida y reproducible.

Ejemplo resuelto

En el grupo 1 hay 84 éxitos de 120 observaciones y en el grupo 2 hay 57 éxitos de 110 observaciones. \(\hat{p}_1 = 0{,}70\), \(\hat{p}_2 \approx 0{,}518\) y la diferencia estimada es \(0{,}182\). Con 95 % de confianza (\(C=0{,}95\), \(\alpha=0{,}05\), método Wald):

\( 0{,}182 \pm 1{,}960 \cdot \sqrt{\frac{0{,}70\cdot0{,}30}{120} + \frac{0{,}518\cdot0{,}482}{110}} \approx [0{,}058,\; 0{,}306] \)

Supuestos para comparar dos proporciones

Los dos grupos deben ser independientes entre sí; no debe haber emparejamiento unidad a unidad.
En cada grupo, cada observación debe clasificarse como éxito o fracaso y tener la misma probabilidad de éxito dentro de ese grupo.
Las observaciones dentro de cada grupo deben ser independientes.
Para Wald se requieren suficientes éxitos y fracasos en ambos grupos: \(n_i\hat p_i\ge 5\) y \(n_i(1-\hat p_i)\ge 5\). Si no se cumple, Newcombe-Wilson suele ser preferible.

¿Wald o Newcombe-Wilson?

Wald es fácil de interpretar y suele funcionar bien con muestras grandes y proporciones no extremas. Newcombe-Wilson suele ser preferible por defecto si algún grupo tiene pocos éxitos o pocos fracasos, porque usa intervalos Wilson individuales y combina sus incertidumbres de forma cuadrática, no mediante una resta directa de límites. Así reduce los problemas de cobertura del intervalo normal clásico.

Cómo interpretar el resultado

El intervalo \([L, U]\) es el rango plausible de la diferencia de proporciones poblacionales \(p_1 - p_2\) dado el nivel de confianza elegido. Si el experimento se repitiera muchas veces con muestras del mismo tamaño, una proporción \(C\) de los intervalos construidos con el mismo método contendría el verdadero valor de \(p_1 - p_2\). La amplitud del intervalo refleja la precisión: muestras más grandes o proporciones más alejadas de 0,5 producen intervalos más estrechos; menor variabilidad y mayor \(n\) llevan a estimaciones más precisas.

La decisión clave reside en si el 0 pertenece al intervalo. Si \(0 \in [L, U]\), los datos no descartan que \(p_1 = p_2\) al nivel de confianza elegido; equivalentemente, el contraste bilateral \(H_0\!: p_1 = p_2\) no se rechazaría al nivel \(\alpha = 1 - C\). Si \(0 \notin [L, U]\), hay evidencia de diferencia: si \(L > 0\) la proporción del grupo 1 es significativamente mayor; si \(U < 0\) la del grupo 2 es significativamente mayor. La calculadora indica automáticamente cuál de los dos casos se da, para ambos métodos cuando se muestran juntos.

Magnitud del efecto: más allá de la significación, la posición central del intervalo (\(\hat{p}_1 - \hat{p}_2\)) indica la diferencia estimada en puntos porcentuales. Un IC significativo pero centrado cerca de 0 puede tener escasa relevancia práctica.
Wald vs. Newcombe-Wilson: cuando la condición de normalidad de Wald se cumple en ambos grupos, ambos métodos suelen coincidir en la conclusión. Si algún grupo tiene pocos éxitos o fracasos, Newcombe-Wilson suele ser más fiable porque usa intervalos Wilson individuales y combina sus incertidumbres cuadráticamente.
Lectura del gráfico: la región verde bajo la curva normal estándar es la zona de confianza y las colas rojas (área \(\alpha/2\) cada una) marcan los valores críticos \(\pm z_{\alpha/2}\). El gráfico visualiza los valores de z compatibles con los datos; el IC en la escala original se obtiene desmapeando esos valores a la diferencia de proporciones.

Preguntas frecuentes

¿Cuándo el IC indica diferencia significativa? Cuando el valor 0 queda fuera del intervalo [L, U].
¿Qué diferencia se calcula? La herramienta calcula p₁ − p₂; si inviertes los grupos, el signo de la diferencia cambia.
¿Qué significa que el IC incluya el 0? Que con el nivel de confianza elegido no puedes descartar que ambas proporciones poblacionales sean iguales.

Referencias usadas

GraphPad: IC para la diferencia entre dos proporciones — explica el intervalo clásico tipo Wald y cita la comparación de métodos de Newcombe.
Statology: Confidence Interval for the Difference in Proportions — desarrollo divulgativo de la fórmula normal/Wald.
NCSS/PASS: Confidence Intervals for the Difference Between Two Proportions — documentación con el método score de Wilson modificado por Newcombe y sus referencias bibliográficas.
Newcombe, R. G. (1998). Interval estimation for the difference between independent proportions: comparison of eleven methods, Statistics in Medicine, 17, 873–890.