¿Qué son p₀₁ y p₁₀ en este cálculo?

p₀₁ es la proporción de pares que cambian de respuesta negativa a positiva (0→1) y p₁₀ la de los que cambian de positiva a negativa (1→0). Son los pares discordantes y los únicos que determinan el tamaño muestral necesario.

¿Por qué solo importan los pares discordantes?

Los pares concordantes (respuesta igual en ambas condiciones) no aportan información sobre si la intervención cambió el resultado. Solo los discordantes revelan si existe diferencia entre las dos proporciones.

¿Qué es la potencia estadística?

La probabilidad de detectar un efecto real cuando existe. Lo habitual es fijarla en 0,80 o 0,90.

¿El tamaño muestral es exacto?

No, es la aproximación normal. Para n pequeño o proporciones extremas, conviene usar la versión exacta del test de McNemar.

Tamaño muestral proporciones apareadas

Calculadora

Introduce p01, p10, confianza y potencia para calcular el número de pares necesarios.

Proporción discordante p01 (0→1)

Proporción discordante p10 (1→0)

Alfa (α)

Potencia (1-β)

Resultado pendiente…

Explicación

Para datos binarios apareados (sí/no medido dos veces en la misma unidad), el contraste adecuado es el test de McNemar. Su lógica central es que los pares concordantes (0→0 y 1→1) no aportan información sobre el cambio: solo los pares discordantes determinan si la intervención tiene efecto.

Los pares discordantes son de dos tipos: \(p_{01}\) (la respuesta cambió de negativa a positiva, 0→1) y \(p_{10}\) (cambió de positiva a negativa, 1→0). El efecto de interés es la diferencia \(p_{10} - p_{01}\): si la intervención es efectiva, \(p_{10}\) será mayor que \(p_{01}\) (más sujetos pasan a respuesta negativa bajo el tratamiento, o viceversa según el diseño).

La eficiencia del diseño apareado frente al de dos grupos independientes depende de la concordancia: cuantos más pares concordantes (sujetos que no cambian), el apareo ayuda menos porque esos pares quedan excluidos del análisis efectivo.

Fórmula de tamaño muestral

\( n = \left\lceil\frac{\left(Z_{\alpha/2}\sqrt{p_d}+Z_\beta\sqrt{p_d-\Delta^2}\right)^2}{\Delta^2}\right\rceil \)

donde \(p_d = p_{01}+p_{10}\) y \(\Delta = |p_{10}-p_{01}|\). Fórmula de Connett et al. (1987), más precisa que la aproximación de Fleiss.

n: número total de pares (concordantes + discordantes).
p₀₁: probabilidad de que un par cambie de 0 a 1 (respuesta negativa → positiva).
p₁₀: probabilidad de que un par cambie de 1 a 0 (respuesta positiva → negativa).
Nota: el denominador \((p_{10}-p_{01})^2\) requiere \(p_{10} \neq p_{01}\); si son iguales, no hay efecto que detectar.

Configuración rápida

p₀₁ y p₁₀: deben estimarse de un piloto o de datos históricos. Si solo tienes la prevalencia antes (p_antes) y el efecto esperado, necesitas hacer suposiciones sobre la estructura de pares.
Si p₀₁ ≈ p₁₀: la diferencia es pequeña y la muestra necesaria será muy grande — revisa si el efecto es clínicamente relevante.
Relación con prevalencias: p_antes = p₁₀ + p₁₁ (concordantes positivos); p_después = p₀₁ + p₁₁. Si conoces ambas prevalencias y una de las p discordantes, puedes calcular la otra.
Alfa y potencia: 0,05 y 0,80 son la base estándar.

Ejemplo sencillo

Evaluación de una campaña de vacunación: p₀₁ = 0,18 (se vacunan tras la campaña quienes no lo habían hecho), p₁₀ = 0,08 (dejan de estar vacunados — muy improbable en la práctica). Con α = 0,05 y potencia 0,80, el resultado es ≈ 202 pares.

Ejemplo resuelto

Un equipo de diagnóstico clínico quiere comparar un nuevo método de detección de una enfermedad infecciosa frente al método estándar actual. En cada paciente se aplican ambas pruebas, formando así pares. De un estudio piloto con 100 pacientes se observa que el 15 % de los pares son discordantes de tipo «nuevo+/estándar−» (\(p_{12} = 0{,}15\)) y el 8 % son discordantes de tipo «nuevo−/estándar+» (\(p_{21} = 0{,}08\)). El objetivo es detectar esta diferencia con \(\alpha = 0{,}05\) bilateral y potencia del 80 %.

En el test de McNemar solo los pares discordantes aportan información. La proporción total de pares discordantes es \(p_d = p_{12} + p_{21} = 0{,}23\) y la diferencia entre proporciones discordantes es \(\Delta = |p_{12} - p_{21}| = 0{,}07\). Con \(z_{\alpha/2} = 1{,}960\) y \(z_{\beta} = 0{,}842\):

\( n = \frac{\left(z_{\alpha/2}\sqrt{p_d} + z_{\beta}\sqrt{p_d - \Delta^2}\right)^2}{\Delta^2} \)

Sustituyendo los valores: \(\sqrt{p_d} = \sqrt{0{,}23} \approx 0{,}4796\) y \(\sqrt{p_d - \Delta^2} = \sqrt{0{,}23 - 0{,}0049} = \sqrt{0{,}2251} \approx 0{,}4745\). Por tanto:

\( n = \frac{(1{,}960 \times 0{,}4796 + 0{,}842 \times 0{,}4745)^2}{0{,}07^2} = \frac{(0{,}9400 + 0{,}3995)^2}{0{,}0049} = \frac{(1{,}3395)^2}{0{,}0049} = \frac{1{,}7942}{0{,}0049} \approx 366{,}2 \rightarrow 367 \)

Se necesitan 367 pares de pacientes (cada uno evaluado con ambos métodos) para alcanzar el 80 % de potencia. Este tamaño elevado refleja que la diferencia a detectar (\(\Delta = 0{,}07\)) es pequeña en relación con la proporción de pares discordantes.

Si la diferencia esperada fuese mayor —por ejemplo \(p_{12} = 0{,}20\) y \(p_{21} = 0{,}08\), con \(\Delta = 0{,}12\)— el tamaño muestral se reduciría considerablemente, lo que ilustra la sensibilidad del test de McNemar al tamaño del efecto en los pares discordantes.

Supuestos del modelo

Los pares son independientes entre sí.
Dentro de cada par, las dos observaciones pueden estar correlacionadas (es el punto de la prueba de McNemar).
Los valores de p₀₁ y p₁₀ se estiman correctamente; errores en ellos impactan directamente en el n calculado.

Usos frecuentes

Evaluación de adherencia a tratamiento o comportamiento antes/después de una intervención.
Comparación de diagnóstico binario de dos observadores o en dos momentos.
Estudios de cambio en variables dicotómicas (sí/no, positivo/negativo) en el mismo individuo.
Diseños cruzados con resultado binario.

Cómo interpretar el resultado

El valor \(n\) es el número mínimo de pares totales (incluyendo los concordantes, es decir, los pares en que ambas condiciones producen el mismo resultado). Redondea siempre hacia arriba. Añade un margen por pérdidas de pares completos: si esperas que un 10 % de los sujetos no complete ambas mediciones o condiciones, recluta \(\lceil n / 0{,}90 \rceil\) pares. Es fundamental distinguir entre el número de pares y el número de observaciones: cada par aporta dos observaciones binarias, pero el test de McNemar solo utiliza los pares discordantes.

La característica más importante de este diseño es que el poder estadístico depende fundamentalmente de la proporción esperada de pares discordantes \((p_{01} + p_{10})\), no del total de pares. Si los sujetos responden de forma muy consistente en ambas condiciones (alta concordancia), los pares discordantes serán escasos y el estudio quedará infrapotenciado aunque el \(n\) total sea grande. Por ello, cuando se estime que la proporción de pares discordantes es baja (< 20 %), será necesario reclutar muchos más sujetos para acumular los pares discordantes suficientes. Realiza un análisis de sensibilidad variando \(p_{01}\) y \(p_{10}\) en ±0,05 para ver el impacto en \(n\).

Si el \(n\) requerido resulta inviable, las alternativas son: (1) relajar la potencia (p. ej., de 90 % a 80 %), (2) reducir las exigencias de nivel de significación (aumentar \(\alpha\)), o (3) replantear el diseño del estudio para aumentar la tasa de discordancia esperada cambiando las condiciones. Con los datos recogidos, analiza los resultados con el test de McNemar para proporciones apareadas; si los recuentos de pares discordantes son muy bajos (< 25 en total), usa la versión exacta del test.

Referencias y lecturas adicionales

Wikipedia (en): McNemar's test — fundamento estadístico del contraste subyacente.
Wikipedia (en): Matched pairs — diseños de pares emparejados y sus aplicaciones.
Fleiss, J. L., Levin, B. y Paik, M. C. (2003). Statistical Methods for Rates and Proportions (3.ª ed.). Wiley. — capítulo sobre el test de McNemar y cálculo de n.

Preguntas frecuentes

¿Por qué solo importan los pares discordantes? Porque los pares concordantes (respuesta igual en ambas condiciones) no aportan información sobre si la intervención cambió el resultado.
¿Cómo estimo p₀₁ y p₁₀ sin piloto? Si conoces la prevalencia antes (p_a) y después (p_d) y la correlación entre mediciones, puedes aproximar: p₀₁ ≈ p_d·(1−ρ) y p₁₀ ≈ p_a·(1−ρ).
¿Cuándo es mejor diseño apareado que dos grupos? Cuando la correlación entre mediciones es alta (ρ > 0,3) y puedes aplicar ambas condiciones al mismo individuo sin arrastre.
¿Es exacta la fórmula? Es la aproximación normal. Para n pequeño o proporciones extremas, usa la versión exacta del test de McNemar.