¿Qué es el margen de error?

Es la precisión máxima tolerada respecto al valor real.

¿Qué significa nivel de confianza?

El porcentaje de veces que el procedimiento capturaría el valor poblacional verdadero.

¿Qué es la potencia estadística?

La probabilidad de detectar un efecto real cuando existe.

¿El tamaño muestral es exacto?

No, depende de supuestos y redondeos prácticos de diseño.

Tamaño muestral dos proporciones

Calculadora

Calcula el tamaño muestral para comparar dos proporciones independientes.

Proporción esperada del grupo 1 (p1)

Proporción esperada del grupo 2 (p2)

Alfa (α)

Potencia (1-β)

Asignación entre grupos

Resultado pendiente…

Explicación

Este cálculo determina el número mínimo de observaciones por grupo para detectar una diferencia entre dos proporciones independientes con una potencia y un nivel de significación especificados. A diferencia de estimar una proporción individual, aquí el objetivo es un contraste de hipótesis bilateral: \(H_0\!: p_1 = p_2\) frente a \(H_1\!: p_1 \neq p_2\).

La fórmula implementada es la de Fleiss, Levin y Paik (2003), que es más precisa que la aproximación de arco seno de Cohen porque tiene en cuenta la variabilidad separada de cada grupo bajo \(H_1\).

El tamaño del efecto aquí es la diferencia absoluta \(|p_1 - p_2|\): cuanto más pequeña, más difícil de detectar y mayor la muestra necesaria. Para efectos muy pequeños (diferencias < 0,05) considera si el efecto es clínica o prácticamente relevante antes de planificar el estudio.

Fórmula de tamaño muestral

\( n_1 = \frac{\left(Z_{\alpha/2}\sqrt{(1+1/k)\bar{p}(1-\bar{p})} + Z_\beta\sqrt{p_1(1-p_1)+\frac{p_2(1-p_2)}{k}}\right)^2}{(p_1-p_2)^2} \)

\( n_2 = k\,n_1,\quad \bar{p}=\frac{p_1 + kp_2}{1+k} \)

n1, n2: tamaños muestrales por grupo.
k: razón de asignación n2/n1 (k = 1 para diseño 1:1).
\(\bar{p}\): proporción ponderada bajo H0.
\(Z_{\alpha/2}\) y \(Z_\beta\): cuantiles normales para alfa bilateral y potencia.

Configuración rápida

p1 y p2: usa estimaciones de un piloto, datos históricos o literatura. Si p2 es el grupo de control, p1 es lo que esperas observar en el grupo de intervención.
Alfa (α): 0,05 bilateral es el valor más habitual. Para estudios confirmatorios usa 0,01.
Potencia: 0,80 como mínimo; 0,90 si las consecuencias de un falso negativo son graves.
Asignación 1:1: el diseño más eficiente cuando el coste de ambos grupos es similar. Asignaciones desiguales aumentan el total.
Pérdidas: divide n por (1 − tasa de abandono esperada).

Ejemplo sencillo

Comparas conversión entre dos campañas: p1 = 0,50, p2 = 0,40, α = 0,05, potencia 0,80, asignación 1:1. Resultado: aproximadamente 388 participantes por grupo (total ≈ 776).

Ejemplo resuelto

Una empresa de comercio digital quiere comparar la tasa de conversión de dos versiones de su página de producto. El diseño A (actual) tiene una conversión de \(p_1 = 0{,}12\) (12 %), y se espera que el diseño B (nuevo) alcance \(p_2 = 0{,}16\) (16 %). Se quiere detectar esta diferencia de 4 puntos porcentuales con una potencia del 80 % (\(z_\beta = 0{,}842\)) y un nivel de significación \(\alpha = 0{,}05\) bilateral (\(z_{\alpha/2} = 1{,}960\)), con asignación 1:1 (\(k = 1\)).

Calculamos primero la proporción ponderada bajo \(H_0\) con \(k=1\): \(\bar{p} = (p_1 + p_2)/2 = (0{,}12 + 0{,}16)/2 = 0{,}14\). A continuación aplicamos la fórmula de Fleiss:

\( n_1 = \frac{\left(z_{\alpha/2}\sqrt{2\,\bar{p}(1-\bar{p})} + z_\beta\sqrt{p_1(1-p_1)+p_2(1-p_2)}\right)^2}{(p_1-p_2)^2} \)

Sustituyendo: el término bajo la raíz del primer sumando es \(2 \times 0{,}14 \times 0{,}86 = 0{,}2408\), luego \(\sqrt{0{,}2408} = 0{,}4907\). El término bajo la raíz del segundo es \(0{,}12 \times 0{,}88 + 0{,}16 \times 0{,}84 = 0{,}1056 + 0{,}1344 = 0{,}2400\), luego \(\sqrt{0{,}2400} = 0{,}4899\). Por tanto:

\( n_1 = \frac{(1{,}960 \times 0{,}4907 + 0{,}842 \times 0{,}4899)^2}{(0{,}04)^2} = \frac{(0{,}9618 + 0{,}4125)^2}{0{,}0016} = \frac{(1{,}3743)^2}{0{,}0016} = \frac{1{,}889}{0{,}0016} \approx 1\,180{,}5 \rightarrow n_1 = 1\,181 \)

Se necesitan 1 181 sesiones por versión (2 362 en total). Con este tamaño muestral, el test tendrá un 80 % de probabilidad de detectar la mejora de 4 pp si realmente existe, controlando la tasa de falsos positivos al 5 %.

Escenario más exigente (diferencia mínima de 3 pp): si el equipo considera relevante detectar incluso una diferencia de \(p_2 = 0{,}15\) frente a \(p_1 = 0{,}12\), la diferencia mínima baja a 3 pp. Al ser más difícil de detectar, el tamaño muestral necesario aumenta considerablemente hasta aproximadamente 1 392 sesiones por grupo (2 784 en total), lo que puede implicar semanas adicionales de test A/B según el volumen de tráfico del sitio.

Supuestos del modelo

Los dos grupos son independientes entre sí.
Muestreo aleatorio en cada grupo.
Distribución binomial aproximada por la normal (válida para n·p ≥ 5 y n·(1−p) ≥ 5 en cada grupo).
Contraste bilateral (si tienes hipótesis direccional, la muestra puede reducirse algo usando un contraste unilateral, aunque esto es menos conservador).

Usos frecuentes

Tests A/B en marketing y producto digital (tasas de conversión o clics).
Comparación de tasas de respuesta a dos tratamientos en ensayos clínicos.
Evaluación de cambios en procesos con resultado binario (sí/no, éxito/fracaso).
Estudios epidemiológicos de cohortes con resultado dicotómico.

Cómo interpretar el resultado

El \(n\) calculado es el tamaño mínimo por grupo para detectar la diferencia \(|p_1 - p_2|\) con la potencia y el nivel de significación especificados. En un diseño balanceado (\(k = 1\)) el total es \(2n\); en uno no balanceado (\(k \neq 1\)) el grupo de referencia necesita \(n\) sujetos y el grupo de intervención \(k \cdot n\). Redondea siempre hacia arriba y divide entre \((1 - \text{tasa de pérdida})\) para obtener el reclutamiento real. Si la tasa de no respuesta esperada es del 20 %, planifica \(\lceil n / 0{,}80 \rceil\) por grupo.

La sensibilidad al tamaño del efecto es muy marcada: cuando \(p_1\) y \(p_2\) son ambas cercanas a 0,5, o cuando la diferencia entre ellas es pequeña (< 0,05), \(n\) puede dispararse hasta valores inviables. En este caso, haz un análisis de sensibilidad variando \(p_1\) y \(p_2\) en ±0,05 para evaluar la robustez del plan. Si la diferencia requerida es muy pequeña, plantéate si es prácticamente relevante: una diferencia estadísticamente detectable pero sin relevancia práctica no justifica el coste de reclutar miles de participantes. En contraste, si \(p_1\) o \(p_2\) son muy extremas (\(<0{,}05\) o \(>0{,}95\)), considera utilizar la transformación arcoseno o un modelo de regresión logística en el análisis.

Cuando el \(n\) obtenido sea pequeño y las frecuencias esperadas en alguna celda sean inferiores a 5, el test chi-cuadrado puede no ser adecuado; en ese caso, utiliza el test exacto de Fisher como alternativa. Si el diseño es factible, una vez recogidos los datos, contrasta los resultados con la calculadora de contraste para dos proporciones o construye un intervalo de confianza para la diferencia si el objetivo es estimar la magnitud del efecto.

Referencias y lecturas adicionales

Wikipedia (en): Sample size determination — sección sobre comparación de proporciones.
Wikipedia (en): Statistical power — relación entre potencia, alfa y tamaño muestral.
Fleiss, J. L., Levin, B. y Paik, M. C. (2003). Statistical Methods for Rates and Proportions (3.ª ed.). Wiley. — fuente de la fórmula implementada.

Preguntas frecuentes

¿Qué diferencia hay con la fórmula de Cohen? La de Fleiss es más precisa porque modela la varianza de cada grupo bajo H1; la de Cohen usa la varianza ponderada en ambos términos.
¿Puedo usar asignación desigual (k ≠ 1)? Sí, pero el tamaño total siempre será mayor que con k = 1. Solo compensa cuando el reclutamiento de un grupo es mucho más barato.
¿Qué es la potencia estadística? La probabilidad de rechazar H0 cuando H1 es cierta, es decir, de detectar la diferencia real.
¿El resultado es exacto? Es una aproximación normal; para muestras muy pequeñas o proporciones extremas considera métodos exactos.