¿Qué es el margen de error?

Es la precisión máxima tolerada respecto al valor real.

¿Qué significa nivel de confianza?

El porcentaje de veces que el procedimiento capturaría el valor poblacional verdadero.

¿Qué es la potencia estadística?

La probabilidad de detectar un efecto real cuando existe.

¿El tamaño muestral es exacto?

No, depende de supuestos y redondeos prácticos de diseño.

Calculadora de tamaño muestral para dos medias

Calculadora

Calcula el tamaño muestral por grupo para detectar una diferencia mínima entre dos medias.

Desviación estándar del grupo 1 (σ1)

Desviación estándar del grupo 2 (σ2)

Diferencia mínima detectable (Δ)

Alfa (α)

Potencia (1-β)

Asignación entre grupos

Resultado pendiente…

Explicación

Esta calculadora determina el número mínimo de observaciones por grupo para detectar una diferencia entre las medias de dos grupos independientes. El contraste subyacente es el test t de Student de dos muestras: \(H_0\!: \mu_1 = \mu_2\) frente a \(H_1\!: |\mu_1 - \mu_2| \geq \Delta\).

A diferencia de la estimación de una media, aquí el objetivo no es precisión sino potencia: queremos asegurar que, si la diferencia real es al menos \(\Delta\), el contraste la detectará con la probabilidad especificada \(1-\beta\).

El tamaño del efecto es la d de Cohen: \(d = \Delta / \sigma\). Valores de referencia: d = 0,2 (efecto pequeño), d = 0,5 (mediano), d = 0,8 (grande). Para d = 0,5 con α = 0,05 y potencia 0,80 el resultado es n ≈ 64 por grupo.

Fórmula de tamaño muestral

\( n_1 = \frac{(Z_{\alpha/2}+Z_\beta)^2(\sigma_1^2+\sigma_2^2/k)}{\Delta^2} \)

\( n_2 = k\,n_1 \)

n1, n2: tamaños por grupo (n2 = k·n1).
\(\Delta\): diferencia mínima de medias clínicamente o prácticamente relevante.
\(\sigma_1, \sigma_2\): desviaciones estándar esperadas en cada grupo.
k: razón de asignación n2/n1 (k = 1 para diseño balanceado).
\(Z_{\alpha/2}\) y \(Z_\beta\): cuantiles normales (α bilateral y potencia).

Configuración rápida

σ1 y σ2: usa datos históricos, piloto o referencias de la literatura. Si asumes varianzas iguales, usa la misma σ en ambos campos.
Δ: define la diferencia mínima prácticamente relevante — no la diferencia esperada, sino la mínima que justificaría una acción o decisión.
Alfa (α): 0,05 bilateral es el estándar; 0,01 para estudios confirmatorios.
Potencia: 0,80 es el mínimo aceptado; 0,90 en estudios pivotales o cuando los falsos negativos son costosos.
Asignación 1:1: siempre es la más eficiente cuando el coste por sujeto es similar en ambos grupos.

Ejemplo sencillo

Comparas el tiempo de proceso de dos líneas con σ1 = σ2 = 10, diferencia mínima detectable Δ = 5, α = 0,05 y potencia 0,80. Resultado: ≈ 63 sujetos por grupo (total ≈ 126). La d de Cohen es Δ/σ = 5/10 = 0,5 (efecto mediano).

Ejemplo resuelto

Un grupo de investigación quiere comparar la eficacia de dos dietas (dieta A y dieta B) en la pérdida de peso tras 12 semanas. A partir de un estudio piloto, la desviación estándar de la pérdida de peso es \(\sigma \approx 8\) kg en ambos grupos. Los investigadores consideran que una diferencia de al menos \(\Delta = 3\) kg entre dietas es clínicamente relevante. Se fija una potencia del 80 % (\(z_\beta = 0{,}842\)) y un nivel de significación \(\alpha = 0{,}05\) bilateral (\(z_{\alpha/2} = 1{,}960\)), con asignación 1:1.

Para grupos de igual tamaño (\(k = 1\)) y \(\sigma_1 = \sigma_2 = \sigma\), la fórmula se simplifica a:

\( n = \frac{2\sigma^2\,(z_{\alpha/2}+z_\beta)^2}{\Delta^2} = \frac{2 \times 64 \times (1{,}960 + 0{,}842)^2}{9} = \frac{128 \times (2{,}802)^2}{9} = \frac{128 \times 7{,}851}{9} = \frac{1\,004{,}9}{9} \approx 111{,}7 \rightarrow n = 112 \)

Se necesitan 112 participantes por grupo, lo que supone un total de 224 participantes en el ensayo. La d de Cohen del efecto es \(d = 3/8 = 0{,}375\), un efecto de tamaño pequeño-mediano que requiere muestras moderadas.

Si los investigadores anticipan un 12 % de abandonos, deben reclutar \(112 / 0{,}88 \approx 128\) participantes por grupo (256 en total) para conservar la potencia planificada.

Análisis de sensibilidad (potencia al 90 %): si el equipo decide elevar la potencia al 90 % (\(z_\beta = 1{,}282\)) para reducir el riesgo de falsos negativos, el cálculo resulta en: \( n = 2 \times 64 \times (1{,}960 + 1{,}282)^2 / 9 = 128 \times (3{,}242)^2 / 9 = 128 \times 10{,}510 / 9 \approx 149{,}5 \rightarrow n = 150 \) por grupo (300 en total). El paso de 80 % a 90 % de potencia supone un incremento del 34 % en el tamaño muestral, un coste que los investigadores deben valorar frente a la reducción de riesgo de error tipo II.

Supuestos del modelo

Los dos grupos son independientes entre sí.
La variable tiene distribución aproximadamente normal en cada grupo (o n es suficientemente grande por el TLC).
Las desviaciones estándar σ1 y σ2 son conocidas o se estiman de forma fiable.
Contraste bilateral. Para estudios de no inferioridad o equivalencia, usa la calculadora específica.

Usos frecuentes

Ensayos clínicos aleatorizados con variable de resultado continua.
Comparación de rendimiento entre dos sistemas, procesos o equipos.
Experimentos A/B con variable cuantitativa (tiempo de carga, puntuación).
Estudios de intervención educativa o psicológica.

Cómo interpretar el resultado

El valor \(n\) que devuelve la calculadora es el tamaño mínimo por grupo en un diseño balanceado. El número total de participantes a reclutar es \(2n\) (uno por grupo). Redondea siempre hacia arriba y añade un margen por pérdidas: si esperas una tasa de abandono del \(r\,\%\), el número de sujetos a reclutar por grupo es \(\lceil n / (1 - r) \rceil\). La diferencia \(\Delta\) debe ser la diferencia mínima clínicamente o prácticamente relevante, no simplemente la diferencia esperada: especificar una diferencia demasiado pequeña dispara el tamaño muestral hasta hacerlo inviable.

La sensibilidad de \(n\) a los parámetros es crítica en este diseño. Los errores en \(\sigma\) se propagan al cuadrado: si la desviación estándar real es un 20 % mayor de lo supuesto, el \(n\) necesario aumenta un 44 % \((1{,}2^2 = 1{,}44)\). Por tanto, es imprescindible un análisis de sensibilidad: calcula \(n\) para \(\sigma - 25\,\%\), \(\sigma\) y \(\sigma + 25\,\%\) y planifica según el escenario más desfavorable. Del mismo modo, si \(\Delta\) se reduce a la mitad, \(n\) se cuadruplica. Aumentar la potencia del 80 % al 90 % incrementa \(n\) aproximadamente en un 30 %.

Si el \(n\) resultante es demasiado grande para ser factible, las alternativas son: (1) aumentar \(\Delta\) si existe consenso clínico para ello, (2) aceptar menor potencia (p. ej., 80 % en lugar de 90 %), (3) diseñar el estudio con medidas repetidas que aprovechen la correlación intraindividual, o (4) recurrir a un diseño adaptativo. Cuando \(n\) sea muy pequeño (< 20 por grupo), verifica que la normalidad de los datos o el tamaño de las desviaciones no invaliden los supuestos del test t de dos muestras. Con los datos recogidos, analiza los resultados con la calculadora de contraste para diferencia de medias.

Referencias y lecturas adicionales

Wikipedia (en): Student's t-test — base teórica del contraste subyacente.
Wikipedia (en): Cohen's d — tamaño del efecto estandarizado para la diferencia de medias.
Wikipedia (en): Sample size determination — derivación y variantes.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2.ª ed.). Lawrence Erlbaum. — referencia estándar para tamaños del efecto.

Preguntas frecuentes

¿Qué es la d de Cohen? El tamaño del efecto estandarizado: Δ/σ. Permite comparar estudios independientemente de las unidades. d = 0,2 (pequeño), 0,5 (mediano), 0,8 (grande).
¿Qué pasa si σ1 ≠ σ2? La fórmula lo admite; introduce cada desviación estándar por separado. Si la diferencia es grande, considera un test de Welch.
¿Qué es la potencia estadística? La probabilidad de rechazar H0 cuando la diferencia real es al menos Δ.
¿Cuándo conviene un diseño apareado? Cuando puedes medir el mismo sujeto en ambas condiciones. El diseño apareado suele requerir muchos menos sujetos porque elimina la variabilidad entre individuos.