¿Sirve para muestras apareadas?

No; para datos apareados debe usarse el contraste de medias apareadas.

¿Qué hipótesis contrasta?

Normalmente \(H_0: \mu_1=\mu_2\), frente a alternativa bilateral o unilateral.

¿Qué pasa si hay tamaños muestrales muy distintos?

Se puede calcular igualmente, pero es importante revisar supuestos y varianzas.

¿Cómo mejorar la interpretación?

Reporta también diferencia estimada, intervalo de confianza y contexto del problema.

Contraste dos medias | Calculadora online

Calculadora

Calculadora online: introduce medias, desviaciones y tamaños muestrales de ambos grupos.

Media grupo 1 (x̄₁)

Media grupo 2 (x̄₂)

Desv. estándar grupo 1 (s₁)

Desv. estándar grupo 2 (s₂)

Tamaño grupo 1 (n₁)

Tamaño grupo 2 (n₂)

Tipo de contraste

Nivel de significación (α)

Resultado pendiente…

Explicación

Este contraste se utiliza para evaluar si dos medias poblacionales son iguales cuando se comparan dos grupos independientes y no se asume varianza común. Por eso se usa habitualmente la versión de Welch, que es más robusta cuando la dispersión de ambos grupos no coincide.

Además de la decisión estadística, conviene interpretar la magnitud de la diferencia \(\bar{x}_1-\bar{x}_2\), su intervalo de confianza y su relevancia en el contexto aplicado.

Hipótesis y estadístico

\(H_0: \mu_1 - \mu_2 = 0\)

\( t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \)

\(\bar{x}_1, \bar{x}_2\): medias muestrales de los grupos 1 y 2.
\(s_1, s_2\): desviaciones estándar muestrales de cada grupo.
\(n_1, n_2\): tamaños de los grupos 1 y 2.
gl: grados de libertad de Welch-Satterthwaite (aproximados, no necesariamente enteros):

\( \nu = \dfrac{(s_1^2/n_1 + s_2^2/n_2)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1} + \dfrac{(s_2^2/n_2)^2}{n_2-1}} \)

Contraste rápido

Se utiliza la fórmula de Welch porque no obliga a suponer varianzas iguales entre grupos. En práctica aplicada, es una opción robusta cuando \(s_1\) y \(s_2\), o \(n_1\) y \(n_2\), son distintos.

Por eso también se usan grados de libertad aproximados (Welch-Satterthwaite), que pueden no ser enteros.

¿También hay versión con desviación poblacional conocida?

Sí. Igual que en el contraste de una media, en dos medias existen dos enfoques: z de dos muestras cuando se conocen las desviaciones poblacionales \(\sigma_1\) y \(\sigma_2\), y t cuando solo se conocen las desviaciones muestrales \(s_1\) y \(s_2\).

En la práctica real casi nunca se conocen \(\sigma_1\) y \(\sigma_2\), por eso esta calculadora aplica la opción más habitual y robusta: t de Welch. Si en tu caso sí conoces desviaciones poblacionales reales, el planteamiento correcto sería un contraste z de dos medias.

Ejemplo resuelto

Se comparan dos tratamientos para reducir la presión arterial. Grupo 1 (tratamiento A): \(\bar{x}_1 = 82\) mmHg, \(s_1 = 12\) mmHg, \(n_1 = 30\). Grupo 2 (tratamiento B): \(\bar{x}_2 = 76\) mmHg, \(s_2 = 15\) mmHg, \(n_2 = 28\). Se contrasta \(H_0\colon \mu_1 = \mu_2\) frente a \(H_1\colon \mu_1 \neq \mu_2\) con \(\alpha = 0{,}05\) bilateral, usando el método de Welch.

El error estándar de la diferencia es:

\( SE = \sqrt{\dfrac{s_1^2}{n_1} + \dfrac{s_2^2}{n_2}} = \sqrt{\dfrac{144}{30} + \dfrac{225}{28}} = \sqrt{4{,}8 + 8{,}036} \approx 3{,}583 \)

El estadístico t de Welch vale:

\( t = \dfrac{\bar{x}_1 - \bar{x}_2}{SE} = \dfrac{82 - 76}{3{,}583} \approx 1{,}675 \)

Los grados de libertad de Welch son aproximadamente \(\nu \approx 52\). El valor crítico bilateral es \(t_{0{,}025,\,52} \approx 2{,}007\). Como \(|t| = 1{,}675 < 2{,}007\), no se rechaza \(H_0\). El p-valor bilateral es \(p \approx 0{,}100 > 0{,}05\).

Conclusión: no se rechaza \(H_0\). Con estos datos no hay evidencia estadística suficiente para afirmar que los dos tratamientos producen reducciones medias distintas al nivel del 5 %. La diferencia observada de 6 mmHg es compatible con la variabilidad muestral.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < α) significa que la diferencia observada entre \(\bar{x}_1\) y \(\bar{x}_2\) es demasiado grande para atribuirla al azar si ambas poblaciones tuviesen la misma media. Sin embargo, la significación estadística no implica relevancia práctica: con muestras grandes, diferencias de escasa magnitud pueden ser altamente significativas. Reporta siempre la diferencia estimada \(\hat{\Delta} = \bar{x}_1 - \bar{x}_2\) y su intervalo de confianza para cuantificar el tamaño del efecto.

No rechazar \(H_0\) (p-valor ≥ α) no equivale a demostrar que las medias son iguales: solo indica que con la muestra disponible no hay evidencia suficiente para rechazar la igualdad. Una potencia baja —causada por muestras pequeñas, alta variabilidad o una diferencia real pequeña— puede impedir la detección. Calcula el intervalo de confianza para \(\Delta\) y evalúa si el rango plausible de diferencias excluye valores de relevancia práctica.

El estadístico t (o z cuando \(\sigma\) es conocida) cuantifica cuántos errores estándar se aleja la diferencia muestral de cero. En la visualización, la zona verde representa la región de no rechazo, las zonas rojas son las regiones críticas y la línea ámbar marca el estadístico observado: si cae en rojo, p-valor < α. Si el test usa varianzas iguales (Pooled) o desiguales (Welch), el cálculo del error estándar varía, pero la lógica interpretativa es la misma.

Preguntas frecuentes

¿Sirve para muestras apareadas? No; para datos apareados debe usarse el contraste de medias apareadas.
¿Qué hipótesis contrasta? Normalmente \(H_0: \mu_1=\mu_2\), frente a alternativa bilateral o unilateral.
¿Qué pasa si hay tamaños muestrales muy distintos? Se puede calcular igualmente, pero es importante revisar supuestos y varianzas.
¿Cómo mejorar la interpretación? Reporta también diferencia estimada, intervalo de confianza y contexto del problema.

Referencia: Prueba t de Student (dos muestras) — Wikipedia