¿Cuándo el IC indica diferencia significativa?

Cuando el valor 0 queda fuera del intervalo [L, U].

¿Welch es siempre válido?

Para muestras independientes con distribución aproximadamente normal sí. Para muestras muy pequeñas o distribuciones muy asimétricas, considera intervalos alternativos como bootstrap para la diferencia de medias, un IC para la diferencia de medianas o el estimador de Hodges-Lehmann si te interesa un desplazamiento de localización.

¿Qué significa que el IC incluya el 0?

Que con el nivel de confianza elegido no puedes descartar que ambas medias sean iguales.

IC diferencia de medias

Calculadora

Introduce los estadísticos de cada grupo para obtener el intervalo de confianza para μ₁ − μ₂.

Media muestral grupo 1 (x̄₁)

Media muestral grupo 2 (x̄₂)

Desviación estándar grupo 1 (s₁)

Desviación estándar grupo 2 (s₂)

Tamaño muestral grupo 1 (n₁)

Tamaño muestral grupo 2 (n₂)

Nivel de confianza

Supuesto de varianzas

Nivel de confianza personalizado (0–1)

Resultado pendiente…

Explicación

Cuando se comparan dos grupos independientes (tratamiento A vs. B, planta 1 vs. planta 2, antes vs. después con muestras diferentes), el intervalo de confianza para la diferencia de medias \(\mu_1 - \mu_2\) permite cuantificar la magnitud de la diferencia y su incertidumbre.

Este intervalo es para muestras independientes: las observaciones del grupo 1 no están emparejadas con observaciones concretas del grupo 2. Si son las mismas personas antes/después, o las mismas unidades medidas dos veces, conviene usar el IC para medias apareadas, que trabaja sobre las diferencias individuales.

Existen dos variantes según si las varianzas poblacionales son iguales o distintas. Denotamos por \(C\) el nivel de confianza y por \(\alpha=1-C\) el área total de las colas; por ejemplo, para 95 % de confianza, \(C=0{,}95\), \(\alpha=0{,}05\) y \(\alpha/2=0{,}025\). Si 0 queda fuera del intervalo, hay evidencia de que las medias difieren.

Varianzas iguales (pooled)

El método pooled supone que los dos grupos comparten una misma varianza poblacional: \(\sigma_1^2=\sigma_2^2\). Como esa varianza común no se conoce, se estima combinando las dos varianzas muestrales en una única varianza agrupada \(s_p^2\).

\( (\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2,\, n_1+n_2-2} \cdot s_p\sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}} \)

La varianza agrupada pondera cada varianza por sus grados de libertad. El grupo con más observaciones aporta más información a la estimación común:

\( s_p^2 = \dfrac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1 + n_2 - 2} \)

Este método puede ser algo más eficiente si de verdad las varianzas son iguales, pero puede dar intervalos poco fiables si el supuesto no se cumple, especialmente con tamaños muestrales desiguales.

Varianzas distintas (Welch)

El método de Welch no fuerza que las varianzas poblacionales sean iguales. Calcula el error estándar sumando la incertidumbre de cada grupo por separado, \(s_1^2/n_1\) y \(s_2^2/n_2\), y ajusta los grados de libertad con la aproximación de Welch–Satterthwaite.

\( (\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2,\, \nu} \cdot \sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}} \)

Los grados de libertad \(\nu\) suelen no ser enteros y reflejan la pérdida de precisión causada por estimar dos varianzas separadas:

\( \nu = \dfrac{\left(\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1} + \dfrac{(s_2^2/n_2)^2}{n_2-1}} \)

En la práctica, Welch suele ser la opción recomendada por defecto: funciona bien aunque las varianzas sean distintas y apenas pierde eficiencia cuando las varianzas son parecidas.

Ejemplo resuelto

Grupo A (nuevo fármaco): \(\bar{x}_1 = 5{,}2\), \(s_1 = 1{,}4\), \(n_1 = 20\). Grupo B (placebo): \(\bar{x}_2 = 4{,}7\), \(s_2 = 1{,}6\), \(n_2 = 22\). La diferencia observada es \(\bar{x}_1-\bar{x}_2=0{,}5\).

Con 95 % de confianza, \(C=0{,}95\), \(\alpha=0{,}05\) y \(\alpha/2=0{,}025\). Usando Welch, el error estándar es:

\( SE=\sqrt{\dfrac{1{,}4^2}{20}+\dfrac{1{,}6^2}{22}}\approx0{,}463 \)

Los grados de libertad de Welch son aproximadamente \(\nu\approx39{,}95\), por lo que \(t_{0{,}025,\nu}\approx2{,}021\). El intervalo queda:

\( 0{,}5 \pm 2{,}021\cdot0{,}463 \approx [-0{,}44,\;1{,}44] \)

Como el intervalo incluye 0, los datos no descartan igualdad de medias al 95 % de confianza. Si se asumieran varianzas iguales, la varianza agrupada sería \(s_p^2\approx2{,}275\), \(s_p\approx1{,}508\), y el intervalo pooled sería muy parecido: aproximadamente \([-0{,}44,\;1{,}44]\). En este ejemplo las conclusiones coinciden, pero si las varianzas o tamaños muestrales fueran muy distintos, Welch sería más seguro.

Supuestos para la diferencia de medias independientes

Los dos grupos deben ser independientes; si son mediciones antes/después o unidades emparejadas, usa el IC para medias apareadas.
Las observaciones dentro de cada grupo deben ser independientes y proceder de muestras representativas.
La distribución de la variable debe ser aproximadamente normal en cada grupo, especialmente con tamaños muestrales pequeños. Con muestras grandes, el teorema central del límite hace más robusto el intervalo.
Para el método pooled debe ser razonable asumir varianzas poblacionales iguales. Si no hay evidencia clara de igualdad, Welch suele ser la opción más segura.

¿Varianzas iguales o distintas?

En la práctica se recomienda usar Welch por defecto: es robusto tanto si las varianzas son iguales como si no, y su pérdida de potencia con varianzas iguales es mínima. El supuesto de varianzas iguales solo debería adoptarse si hay fuerte evidencia previa de que \(\sigma_1 = \sigma_2\).

Cómo interpretar el resultado

El intervalo \([L, U]\) es el rango de valores plausibles para la diferencia de medias poblacionales \(\mu_1 - \mu_2\) dado el nivel de confianza elegido. Si el intervalo se repitiera muchas veces con muestras del mismo tamaño, una proporción \(C\) de esos intervalos contendría la verdadera diferencia \(\mu_1 - \mu_2\). La amplitud depende de la variabilidad de cada grupo (\(s_1\), \(s_2\)), de los tamaños muestrales (\(n_1\), \(n_2\)) y del nivel de confianza: cuantas más observaciones o menor variabilidad, más estrecho y preciso será el intervalo.

La clave para la toma de decisiones está en si el valor 0 pertenece al intervalo o no. Si \(0 \in [L, U]\), los datos son compatibles con la hipótesis de que ambas medias son iguales (\(\mu_1 = \mu_2\)) al nivel de confianza elegido; equivalentemente, el contraste bilateral \(H_0\!: \mu_1 = \mu_2\) no se rechazaría al nivel \(\alpha = 1 - C\). Si \(0 \notin [L, U]\), hay evidencia de que las medias difieren: si \(L > 0\), la media del grupo 1 es significativamente mayor; si \(U < 0\), la media del grupo 2 es significativamente mayor. La calculadora indica esto explícitamente en el resultado.

Dirección del efecto: el signo y la magnitud de la diferencia \(\bar{x}_1 - \bar{x}_2\) indican cuánto y en qué sentido difieren los grupos. El intervalo traduce esa estimación puntual en un rango de incertidumbre.
Welch vs. pooled: con Welch los grados de libertad son fraccionarios; eso acorta ligeramente el IC respecto a forzar varianzas iguales cuando las varianzas son muy distintas. En el gráfico se muestra la distribución t con los grados de libertad efectivos del método elegido.
Relevancia práctica: un IC significativo pero muy cercano a 0 puede indicar una diferencia estadística real pero de escasa importancia práctica. Valora siempre la magnitud del efecto junto con la significación.

Preguntas frecuentes

¿Cuándo el IC indica diferencia significativa? Cuando el valor 0 queda fuera del intervalo [L, U].
¿Welch es siempre válido? Para muestras independientes con distribución aproximadamente normal sí. Para muestras muy pequeñas o distribuciones muy asimétricas, considera intervalos alternativos como bootstrap para la diferencia de medias, un IC para la diferencia de medianas o el estimador de Hodges-Lehmann si te interesa un desplazamiento de localización.
¿Qué significa que el IC incluya el 0? Que con el nivel de confianza elegido no puedes descartar que ambas medias sean iguales.