¿Qué es σ_d en el tamaño muestral para medias apareadas?

Es la desviación estándar de las diferencias individuales entre cada par de observaciones, no la desviación estándar de cada grupo por separado.

¿Cómo estimo σ_d si no tengo datos previos?

Usa datos piloto de al menos 10–20 pares, o busca estudios similares en la literatura. Una regla aproximada: σ_d ≈ rango esperado de las diferencias dividido entre 4.

¿El tamaño muestral es exacto?

No. Depende del supuesto sobre σ_d y del redondeo hacia arriba. En la práctica añade un margen del 10–20 % para compensar pares inválidos o pérdidas.

Tamaño muestral medias apareadas IC

Calculadora

Calcula el número mínimo de pares para estimar la diferencia media con precisión objetivo.

Desviación estándar de las diferencias (σ_d)

Margen de error (E)

Nivel de confianza

Resultado pendiente…

Explicación

Esta calculadora determina el número mínimo de pares de observaciones para estimar la diferencia media poblacional \(\mu_d\) con un margen de error absoluto máximo \(E\) y un nivel de confianza dado. Se usa cuando el diseño empareja cada observación de un grupo con una observación concreta del otro: medición antes/después en los mismos sujetos, dos métodos aplicados a las mismas muestras, o pares emparejados por características relevantes.

La fórmula es matemáticamente idéntica a la del tamaño muestral para una media, pero aplicada a las diferencias. El parámetro clave que debes conocer de antemano es \(\sigma_d\), la desviación estándar de las diferencias individuales \(d_i = x_{i,\text{después}} - x_{i,\text{antes}}\). Este valor no es la desviación estándar de cada grupo por separado, sino la dispersión de los cambios individuales.

La fórmula usa el cuantil normal Z, lo que supone que \(\sigma_d\) es conocida o que la muestra es suficientemente grande. Para muestras pequeñas (< 30 pares) con \(\sigma_d\) desconocida, el n real puede ser algo mayor; puedes iterar reemplazando Z por el cuantil t con n−1 grados de libertad.

Fórmula de tamaño muestral

\( n = \left(\dfrac{Z \cdot \sigma_d}{E}\right)^2 \)

n: número mínimo de pares (redondeado al entero superior).
Z: cuantil normal — 1,645 (90 %), 1,960 (95 %), 2,576 (99 %).
\(\sigma_d\): desviación estándar de las diferencias individuales \(d_i\).
E: margen de error absoluto máximo tolerable para \(\mu_d\) (en las mismas unidades que las diferencias).

Relación entre σ_d, E y n

El tamaño muestral crece cuadráticamente con la precisión exigida: reducir E a la mitad cuadruplica n. También crece cuadráticamente con \(\sigma_d\): si la variabilidad de los cambios individuales es el doble, necesitas cuatro veces más pares. Una clave del diseño apareado es que \(\sigma_d\) suele ser menor que la desviación estándar de cada grupo por separado cuando las mediciones están correlacionadas, lo que hace este diseño más eficiente que comparar dos grupos independientes.

Configuración rápida

Desviación estándar de las diferencias (σ_d): tómala de estudios piloto, de la literatura o de datos históricos del mismo tipo de medición. No confundas σ_d con la desviación típica de cada grupo.
Si no tienes σ_d: realiza un estudio piloto de 10–20 pares y calcula la desviación estándar de las diferencias. Como alternativa conservadora, usa la desviación estándar de las mediciones individuales (tiende a sobreestimar σ_d cuando los pares están correlacionados).
Nivel de confianza: 95 % es el estándar en la mayoría de disciplinas científicas.
Error máximo E: defínelo en las mismas unidades que las diferencias y en términos prácticos: ¿a partir de qué diferencia en el cambio medio tomarías una decisión diferente?
Pérdidas esperadas: divide n entre (1 − tasa de abandono esperada). En estudios longitudinales es habitual reservar un 10–20 % adicional.

Ejemplo resuelto

Un equipo clínico quiere estimar el descenso medio de la presión arterial sistólica (mmHg) tras 8 semanas de tratamiento con un nuevo fármaco. De un estudio piloto con 15 pacientes obtienen que la desviación estándar de las diferencias individuales (antes − después) es \(\sigma_d \approx 8{,}0\) mmHg. El equipo decide que la estimación debe ser precisa dentro de \(E = 2\) mmHg con un nivel de confianza del 95 % (\(Z = 1{,}960\)).

Aplicamos la fórmula directamente:

\( n = \left(\dfrac{Z \cdot \sigma_d}{E}\right)^2 = \left(\dfrac{1{,}960 \times 8{,}0}{2{,}0}\right)^2 = (7{,}84)^2 = 61{,}47 \rightarrow n = 62 \text{ pares} \)

Se necesitan al menos 62 pacientes con mediciones válidas antes y después. Con una pérdida esperada del 15 %, el número de pacientes a reclutar inicialmente es:

\( n_{\text{reclutar}} = \frac{62}{1 - 0{,}15} = \frac{62}{0{,}85} \approx 73 \text{ pacientes} \)

Análisis de sensibilidad: si el equipo aceptase un margen de error de \(E = 3\) mmHg, la muestra se reduciría considerablemente: \( n = (1{,}960 \times 8{,}0 / 3{,}0)^2 = (5{,}227)^2 = 27{,}3 \rightarrow n = 28\). Definir correctamente el margen de error tolerable tiene un impacto enorme en la viabilidad del estudio.

Supuestos del modelo

Los pares son independientes entre sí (pero las dos observaciones dentro de cada par no lo son, y eso es exactamente lo que el diseño aprovecha).
La distribución de las diferencias \(d_i\) es aproximadamente normal, o n es suficientemente grande para que el TCL garantice la normalidad del estimador.
La desviación estándar \(\sigma_d\) es conocida o se estima de forma fiable.
El margen de error \(E\) se aplica a la diferencia media \(\mu_d\), no a cada grupo por separado.

Usos frecuentes

Ensayos clínicos de intervención con medición pre y post en los mismos sujetos.
Estudios de validación de métodos de medición (comparación instrumento A vs. B en las mismas muestras).
Experimentos educativos o psicológicos con diseño antes/después.
Control de calidad con muestras medidas por dos operarios o en dos momentos.

Cómo interpretar el resultado

El valor \(n\) es el número mínimo de pares válidos (sujetos con ambas mediciones completas) para que el intervalo de confianza de la diferencia media intraindividual tenga una semiancho máximo de \(E\) con el nivel de confianza especificado. Redondea siempre hacia arriba. Si prevés que algunos pares quedarán incompletos (pérdida de una de las dos mediciones), añade un margen: divide \(n\) entre \((1 - \text{tasa de pérdida})\) para obtener los pares que debes iniciar.

El parámetro más influyente y más difícil de conocer de antemano es \(\sigma_d\), la desviación estándar de las diferencias pareadas. Esta cantidad no es la desviación estándar de cada medición individual, sino la variabilidad de la diferencia \(d_i = x_{i,\text{post}} - x_{i,\text{pre}}\) para cada sujeto. Si dispones de datos piloto, estímala directamente a partir de las diferencias observadas. En ausencia de datos previos, usa la relación \(\sigma_d \approx \sigma\sqrt{2(1-\rho)}\) donde \(\sigma\) es la desviación estándar de una medición y \(\rho\) es la correlación test-retest esperada. Realiza un análisis de sensibilidad con \(\sigma_d - 25\,\%\), \(\sigma_d\) y \(\sigma_d + 25\,\%\) y planifica con el valor mayor.

La ventaja del diseño apareado frente al de grupos independientes es que elimina la variabilidad entre sujetos, lo que puede reducir sustancialmente \(n\) cuando la correlación intraindividual es alta (\(\rho > 0{,}5\)). Si el IC resultante va a usarse para tomar una decisión clínica, comprueba que el valor de \(E\) tiene una interpretación práctica clara (p. ej., diferencia mínima clínicamente relevante). Con los pares recogidos, usa la calculadora de contraste para medias apareadas si quieres realizar un test de hipótesis, o construye directamente el IC con la calculadora de intervalo de confianza para diferencia de medias.

Referencias y lecturas adicionales

Altman, D. G. (1991). Practical Statistics for Medical Research. Chapman & Hall. — diseño de estudios apareados y cálculo del tamaño muestral.
Machin, D., Campbell, M. J., Tan, S. B., & Tan, S. H. (2018). Sample Sizes for Clinical, Laboratory and Epidemiology Studies (4.ª ed.). Wiley-Blackwell.
Wikipedia (en): Sample size determination — derivación para medias y otras variantes.

Preguntas frecuentes

¿Qué pasa si σ_d es mayor de lo esperado? El margen de error real será mayor que E. Por eso conviene ser conservador al estimar σ_d y, si hay dudas, realizar un análisis de sensibilidad con distintos valores.
¿Cuándo debo usar t en lugar de Z? Cuando n < 30 y σ_d es desconocida. Itera: calcula n con Z, luego reemplaza Z por t(n−1) y recalcula hasta convergencia.
¿Este cálculo sirve para el contraste de hipótesis? No directamente. Para detectar una diferencia con una potencia y nivel de significación dados, usa la calculadora de medias apareadas para contraste H0.
¿Por qué el diseño apareado puede necesitar menos sujetos que el de dos grupos independientes? Porque \(\sigma_d\) suele ser menor que \(\sqrt{\sigma_1^2 + \sigma_2^2}\) cuando las mediciones dentro de cada par están correlacionadas positivamente. Cuanto mayor es esa correlación, más eficiente es el diseño apareado.