¿Qué representa σd en la fórmula?

σd es la desviación estándar de las diferencias intraindividuales (d_i = X1_i − X2_i), no la desviación de cada grupo por separado. Debe estimarse de un piloto apareado o de literatura.

¿Qué es Δ en el diseño apareado?

Es la diferencia media mínima que quieres detectar. Se define con criterio práctico o clínico antes del estudio, no a posteriori.

¿Qué es la potencia estadística?

La probabilidad de detectar un efecto real cuando existe. Lo habitual es fijarla en 0,80 o 0,90.

¿El tamaño muestral es exacto?

No, es la aproximación normal. Para n pequeño conviene usar iteración con cuantiles t con n−1 grados de libertad.

Tamaño muestral medias apareadas

Calculadora

Introduce σd, Δ, confianza y potencia para obtener el número de pares necesarios.

Desv. estándar de diferencias (σd)

Cambio mínimo detectable (Δ)

Alfa (α)

Potencia (1-β)

Resultado pendiente…

Explicación

En un diseño apareado se mide la misma unidad experimental en dos condiciones (antes/después, tratamiento/control cruzado, ojo derecho/izquierdo). El contraste de interés no es la diferencia de medias de dos grupos independientes, sino la media de las diferencias individuales \(\bar{d} = \bar{X}_1 - \bar{X}_2\).

La ventaja clave del diseño apareado es que elimina la variabilidad entre individuos, que suele ser la mayor fuente de ruido. Por eso, el parámetro relevante es \(\sigma_d\) (desviación estándar de las diferencias intraindividuales), que generalmente es mucho menor que \(\sigma\) de cada grupo por separado. Esto se traduce en muestras significativamente más pequeñas comparado con el diseño de dos grupos independientes.

La relación entre \(\sigma_d\) y las desviaciones estándar de cada medición es: \(\sigma_d^2 = \sigma_1^2 + \sigma_2^2 - 2\rho\sigma_1\sigma_2\), donde \(\rho\) es la correlación entre ambas mediciones. Cuanto mayor sea \(\rho\), menor será \(\sigma_d\) y más eficiente el diseño apareado.

Fórmula de tamaño muestral

\( n = \left\lceil\left(\frac{(Z_{\alpha/2}+Z_\beta)\,\sigma_d}{\Delta}\right)^2\right\rceil \)

n: número de pares (individuos o unidades, no observaciones totales).
\(\sigma_d\): desviación estándar de las diferencias intraindividuales (no de cada grupo).
\(\Delta\): diferencia media mínima que quieres detectar.
\(Z_{\alpha/2}\) y \(Z_\beta\): cuantiles normales para alfa bilateral y potencia.

Configuración rápida

σd: estímala de un piloto apareado (mide diferencias en cada par) o de la literatura. No uses las σ individuales de cada grupo por separado.
Si solo tienes σ individual y ρ estimada: calcula σd = σ·√(2(1−ρ)) asumiendo varianzas iguales.
Δ: la diferencia mínima prácticamente relevante (cambio clínico mínimo, mínima mejora operativa).
Alfa y potencia: 0,05 y 0,80 como base; 0,90 si los falsos negativos son costosos.

Ejemplo sencillo

Intervención de entrenamiento: σd = 8, cambio mínimo a detectar Δ = 3, α = 0,05, potencia 0,80. Resultado: ≈ 56 pares. Para la misma situación con dos grupos independientes (σ = 8) necesitarías ~113 por grupo si ρ = 0, pero solo ~56 pares si ρ = 0,5 gracias al diseño apareado.

Ejemplo resuelto

Un centro de fisioterapia quiere evaluar la eficacia de un nuevo protocolo de tratamiento midiendo el nivel de dolor (escala 0–10) antes y después de la intervención en cada paciente. De un estudio piloto previo se estima que la desviación estándar de las diferencias individuales es \(\sigma_d = 2{,}1\) puntos. El equipo clínico considera relevante detectar una mejoría media mínima de \(\delta = 1{,}0\) punto. Se fija un nivel de significación bilateral \(\alpha = 0{,}05\) y una potencia del 80 %.

Los valores críticos correspondientes son \(z_{\alpha/2} = 1{,}960\) (percentil 97,5 de la normal estándar) y \(z_{\beta} = 0{,}842\) (percentil 80). Sustituyendo en la fórmula:

\( n = \frac{(z_{\alpha/2} + z_{\beta})^2 \cdot \sigma_d^2}{\delta^2} = \frac{(1{,}960 + 0{,}842)^2 \times 2{,}1^2}{1{,}0^2} = \frac{(2{,}802)^2 \times 4{,}41}{1} = \frac{7{,}851 \times 4{,}41}{1} \approx 34{,}6 \)

Redondeando al entero superior, se necesitan 35 pares (es decir, 35 pacientes medidos antes y después) para alcanzar el 80 % de potencia.

Si el equipo desea aumentar la potencia al 90 % (\(z_{\beta} = 1{,}282\)), el cálculo se convierte en:

\( n = \frac{(1{,}960 + 1{,}282)^2 \times 4{,}41}{1{,}0^2} = \frac{(3{,}242)^2 \times 4{,}41}{1} = \frac{10{,}511 \times 4{,}41}{1} \approx 46{,}4 \)

Se precisarían entonces 47 pares. Este incremento de 12 pares ilustra cómo el aumento de potencia del 80 % al 90 % supone aproximadamente un 34 % más de muestra.

Si la variabilidad real fuese mayor —por ejemplo \(\sigma_d = 3{,}0\)— con potencia del 80 % el tamaño muestral ascendería a \(n = 7{,}851 \times 9{,}0 / 1{,}0 \approx 71\) pares, lo que pone de manifiesto la importancia de disponer de un estudio piloto fiable para estimar \(\sigma_d\) con precisión.

Supuestos del modelo

Las diferencias \(d_i = X_{1i} - X_{2i}\) son independientes entre pares.
Las diferencias siguen aproximadamente una distribución normal (o n es grande).
\(\sigma_d\) es constante en todos los pares (homocedasticidad de las diferencias).
El efecto del orden no contamina las mediciones (en diseños cruzados, usa periodos de lavado adecuados).

Usos frecuentes

Estudios pre-post intervención (antes y después del tratamiento).
Diseños cruzados (crossover) en ensayos clínicos.
Comparación de dos métodos de medición aplicados al mismo sujeto.
Evaluaciones de cambio de habilidad, peso, presión arterial, etc.

Cómo interpretar el resultado

El valor \(n\) es el número mínimo de sujetos, cada uno de los cuales aporta dos mediciones (antes/después, o condición A/condición B). El número total de observaciones es \(2n\), pero el número de unidades estadísticas independientes sigue siendo \(n\). Redondea siempre hacia arriba y aplica el ajuste por pérdidas: si esperas un 15 % de abandono entre la primera y la segunda medición, recluta \(\lceil n / 0{,}85 \rceil\) sujetos en la primera fase.

El parámetro clave y más delicado es \(\sigma_d\), la desviación estándar de las diferencias intraindividuales, que no debe confundirse con las desviaciones estándar de cada medición por separado. Si se usa \(\sigma\) de una sola medición en lugar de \(\sigma_d\), el \(n\) calculado puede estar sobreestimado o subestimado dependiendo de la correlación entre ambas medidas: cuando la correlación intraindividual \(\rho\) es alta, \(\sigma_d \approx \sigma\sqrt{2(1-\rho)}\) es considerablemente menor que \(\sigma\) y el diseño apareado exige muchos menos sujetos que el diseño independiente. Haz un análisis de sensibilidad con \(\sigma_d \pm 25\,\%\) y usa el \(n\) mayor.

Si el \(n\) calculado resulta muy pequeño (< 15 pares), verifica que la distribución de las diferencias sea aproximadamente normal, ya que el test t para medidas repetidas se basa en ese supuesto. Con muy pocos pares, considera el test de Wilcoxon para muestras relacionadas. Cuando \(n\) sea inasumiblemente grande, revisa si la diferencia mínima detectable \(\delta\) es prácticamente relevante o si puede relajarse. Con los datos recogidos, usa la calculadora de contraste para medias apareadas para el análisis principal.

Referencias y lecturas adicionales

Wikipedia (en): Paired difference test — fundamento estadístico del test t apareado.
Wikipedia (en): Crossover study — diseños cruzados y consideraciones de orden.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2.ª ed.). Lawrence Erlbaum. — capítulo sobre la t de diferencias correladas.

Preguntas frecuentes

¿Por qué σd y no σ de cada grupo? Porque el análisis opera sobre las diferencias intraindividuales, no sobre las medias grupales. Usar σ individual sobreestimaría σd si los individuos son heterogéneos.
¿Cómo obtengo σd sin piloto? Si conoces σ individual y la correlación esperada ρ entre mediciones: σd ≈ σ·√(2(1−ρ)). Para ρ = 0,7 y σ = 10 → σd ≈ 7,7.
¿Cuándo conviene diseño apareado frente a dos grupos? Siempre que la correlación entre mediciones sea positiva (ρ > 0) y puedas aplicar ambas condiciones al mismo individuo sin efecto arrastre.
¿El resultado es exacto? Es la aproximación normal; para n pequeño considera usar cuantiles t con n−1 grados de libertad de forma iterativa.