¿Cuándo se usa el test t para medias apareadas?

Se usa cuando cada individuo es medido dos veces (antes y después) o cuando los sujetos están emparejados por alguna característica relevante, de modo que las diferencias entre pares eliminan la variabilidad entre individuos.

¿Qué supuestos requiere el test t apareado?

Las diferencias d_i deben seguir una distribución aproximadamente normal (o n debe ser grande por el teorema central del límite). Las observaciones deben ser independientes entre pares.

¿En qué se diferencia del test t de dos muestras independientes?

El test apareado trabaja directamente con las diferencias dentro de cada par, eliminando la variabilidad entre individuos. Esto lo hace más potente cuando existe correlación positiva entre las mediciones de cada par.

¿Qué significa μ_d0 en la hipótesis nula?

Es el valor de la diferencia media poblacional bajo la hipótesis nula. Habitualmente se fija en 0 para contrastar si hay efecto, aunque puede ser cualquier valor si se compara con una diferencia de referencia.

¿Cómo se calcula el p-valor en este test?

Se calcula a partir de la distribución t de Student con n-1 grados de libertad, evaluando la probabilidad de obtener un estadístico tan extremo como el observado bajo la hipótesis nula.

Contraste de hipótesis para medias apareadas

Calculadora

Introduce los parámetros de las diferencias para obtener el estadístico t, p-valor y decisión del contraste.

Media de diferencias (d̄)

Desv. típica de diferencias (s_d)

Número de pares (n)

Valor nulo (μ_d0)

Tipo de contraste

Nivel de significación (α)

Resultado pendiente…

Explicación

El contraste de hipótesis para medias apareadas se aplica cuando las observaciones están emparejadas: cada individuo aporta dos mediciones (por ejemplo, antes y después de un tratamiento) o cuando los sujetos se han emparejado intencionalmente por variables de confusión. En lugar de comparar dos grupos independientes, se trabaja directamente con las diferencias \(d_i = x_{i1} - x_{i2}\) dentro de cada par.

Esta estrategia de diseño elimina la variabilidad entre individuos, lo que se traduce habitualmente en una mayor potencia estadística frente al test t para muestras independientes, especialmente cuando existe correlación positiva entre las mediciones de cada par.

Hipótesis y estadístico

\(H_0: \mu_d = \mu_{d0}\)

\(H_1: \mu_d \neq \mu_{d0}\), \(\mu_d > \mu_{d0}\) o \(\mu_d < \mu_{d0}\)

\( t = \dfrac{\bar{d} - \mu_{d0}}{s_d / \sqrt{n}}, \quad gl = n - 1 \)

\(\bar{d}\): media muestral de las diferencias.
\(\mu_{d0}\): valor de la diferencia media bajo \(H_0\) (normalmente 0).
\(s_d\): desviación estándar muestral de las diferencias.
\(n\): número de pares.
\(gl = n-1\): grados de libertad de la t de Student.

Guía rápida de decisión

Si el p-valor es menor que \(\alpha\), se rechaza \(H_0\): hay evidencia de que la diferencia media no es \(\mu_{d0}\).
Si el p-valor es mayor o igual que \(\alpha\), no hay evidencia suficiente para rechazar \(H_0\).
Un resultado no significativo no prueba que \(H_0\) sea verdadera; puede deberse a falta de potencia.
Complementa siempre con un intervalo de confianza para \(\mu_d\) y el tamaño del efecto (d de Cohen).

¿Cuándo usar el diseño apareado?

El diseño apareado es especialmente ventajoso cuando:

Las mismas unidades experimentales son medidas en dos condiciones (diseño de medidas repetidas).
Se emparejan sujetos por edad, sexo u otras variables relevantes antes del estudio.
Se espera que exista correlación positiva entre las dos mediciones de cada par.

Si las diferencias no son normales y la muestra es pequeña, considere la alternativa no paramétrica: el test de Wilcoxon para datos apareados.

Supuestos del test

Las diferencias \(d_i\) siguen una distribución aproximadamente normal (o \(n\) es suficientemente grande).
Las observaciones son independientes entre pares (no dentro de cada par).
Los pares son representativos de la población de interés.

Ejemplo resuelto

Investigadores miden la presión arterial sistólica en 25 pacientes antes y después de un tratamiento. La media de las diferencias (antes − después) es \(\bar{d} = 2{,}5\) mmHg con desviación típica \(s_d = 8\) mmHg. Se contrasta \(H_0\colon \mu_d = 0\) frente a \(H_1\colon \mu_d \neq 0\) con \(\alpha = 0{,}05\).

El estadístico t es:

\( t = \dfrac{2{,}5 - 0}{8 / \sqrt{25}} = \dfrac{2{,}5}{1{,}6} = 1{,}5625 \)

Con \(gl = 24\) grados de libertad y contraste bilateral, el p-valor es \(p \approx 0{,}131\). Como \(p = 0{,}131 > \alpha = 0{,}05\), no se rechaza \(H_0\).

Conclusión: con estos datos no hay evidencia estadística suficiente para concluir que el tratamiento produce una reducción significativa de la presión arterial al nivel del 5 %. Sería recomendable ampliar la muestra o revisar la variabilidad de las diferencias.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < α) implica que la diferencia media intrapar \(\bar{d}\) es estadísticamente incompatible con el valor hipotético \(\mu_{d0}\) (habitualmente 0). En la práctica significa que el tratamiento, intervención o condición medida dos veces produce un cambio sistemático en los sujetos. Aun así, la magnitud del cambio es lo que determina la relevancia práctica: calcula el tamaño del efecto \(d = \bar{d}/s_d\) e interpreta si esa diferencia es clínicamente o sustantivamente importante.

No rechazar \(H_0\) (p-valor ≥ α) solo indica que los datos son compatibles con una diferencia media de \(\mu_{d0}\). No prueba que el efecto sea nulo. El error más frecuente es concluir «el tratamiento no funciona» cuando en realidad la muestra era demasiado pequeña para detectar el efecto real. Examina el intervalo de confianza para \(\mu_d\): si su extremo superior (o inferior, según la alternativa) incluye diferencias clínicamente relevantes, la potencia es insuficiente para descartar esas diferencias.

El estadístico t apareado se distribuye bajo \(H_0\) como una t de Student con \(n-1\) grados de libertad. En la visualización, la zona verde es la región de no rechazo, las zonas rojas son las regiones de rechazo y la línea ámbar señala el estadístico observado. Una ventaja del diseño apareado es que al eliminar la variabilidad entre sujetos, el error estándar es generalmente menor que en el test de dos muestras independientes, lo que aumenta la potencia cuando los pares están correlacionados positivamente.

Preguntas frecuentes

¿Cuándo se usa el test t para medias apareadas? Cuando cada individuo es medido dos veces o cuando los sujetos están emparejados por alguna característica relevante, de modo que las diferencias eliminan la variabilidad entre individuos.
¿Qué supuestos requiere el test t apareado? Las diferencias \(d_i\) deben seguir una distribución aproximadamente normal (o \(n\) debe ser grande). Las observaciones deben ser independientes entre pares.
¿En qué se diferencia del test t de dos muestras independientes? El test apareado trabaja con las diferencias dentro de cada par, eliminando la variabilidad entre individuos y siendo más potente cuando existe correlación positiva entre pares.
¿Qué significa μ_d0 en la hipótesis nula? Es el valor de la diferencia media poblacional bajo \(H_0\). Habitualmente se fija en 0 para contrastar si hay efecto.
¿Cómo se calcula el p-valor en este test? A partir de la distribución t de Student con \(n-1\) grados de libertad, evaluando la probabilidad de obtener un estadístico tan extremo como el observado bajo \(H_0\).

Referencia: Test t para muestras relacionadas — Wikipedia