¿Cuándo debo usar el test exacto de Fisher en lugar del chi-cuadrado?

El test exacto de Fisher es preferible cuando alguna frecuencia esperada en la tabla 2×2 es inferior a 5, o cuando el tamaño muestral total es pequeño (típicamente N < 20–25). El chi-cuadrado con corrección de Yates es una alternativa, pero Fisher es más exacto al no depender de ninguna aproximación asintótica.

¿Por qué se usa la aproximación de Fleiss para calcular el tamaño muestral de Fisher?

El cálculo exacto de potencia para el test de Fisher requiere simulación o enumeración completa de las distribuciones hipergeométricas, lo que es computacionalmente intensivo. La aproximación de Fleiss (1981) con corrección de continuidad de Casagrande y Pike ofrece una fórmula cerrada que coincide bien con los resultados de simulación y es el estándar recomendado en la práctica.

¿Qué significa la corrección de continuidad en el tamaño muestral para Fisher?

La corrección de continuidad de Casagrande y Pike ajusta hacia arriba el tamaño muestral de Fleiss para compensar la naturaleza discreta de la distribución hipergeométrica. Produce estimaciones más conservadoras (mayor n) que garantizan con mayor seguridad alcanzar la potencia objetivo.

¿Qué diferencia hay entre el tamaño muestral sin corrección y con corrección de continuidad?

El n sin corrección (Fleiss básico) puede subestimar el tamaño necesario para el test exacto de Fisher porque no tiene en cuenta la discretización. La corrección de Casagrande y Pike incrementa el n en un factor que depende de la diferencia entre proporciones y de la razón r. Para diferencias grandes entre proporciones, la corrección es pequeña; para diferencias pequeñas, puede incrementar el n en un 10–20 %.

Tamaño muestral Fisher 2×2

Calculadora

Introduce las proporciones esperadas en cada grupo, el nivel de significación, la potencia deseada, la razón de tamaños y el tipo de contraste.

Proporción esperada grupo 1 (p₁)

Proporción esperada grupo 2 (p₂)

Alfa (α)

Potencia (1-β)

Tamaño relativo del grupo 2 (r = n₂/n₁)

Tipo de contraste

Resultado pendiente…

Explicación

El test exacto de Fisher se usa para contrastar la independencia entre dos variables binarias en una tabla de contingencia 2×2. Es el método preferido cuando las frecuencias esperadas en alguna celda son inferiores a 5, o cuando el tamaño muestral total es pequeño, situaciones en las que la aproximación asintótica chi-cuadrado puede no ser válida.

Al ser un test exacto basado en la distribución hipergeométrica, calcular su potencia de forma analítica requeriría enumerar toda la distribución de tablas posibles, lo cual es computacionalmente costoso para uso general. La solución práctica estándar es utilizar la aproximación de Fleiss (1981) para dos proporciones independientes, seguida de la corrección de continuidad de Casagrande y Pike (1978), que ajusta el tamaño muestral para compensar la naturaleza discreta del test exacto.

Esta aproximación produce resultados muy similares a los obtenidos por simulación y es la recomendación habitual en textos de referencia como Fleiss, Levin y Paik (2003).

Fórmula utilizada

Sea \(p_1\) la proporción en el grupo 1, \(p_2\) la proporción en el grupo 2, \(r = n_2/n_1\) la razón de tamaños, y \(\bar{p} = (p_1 + r\,p_2)/(1+r)\) la proporción conjunta ponderada.

Paso 1 — Aproximación de Fleiss (sin corrección):

\( n_1^{(0)} = \frac{\left(z_\alpha\,\sqrt{(1+1/r)\,\bar{p}(1-\bar{p})} + z_\beta\,\sqrt{p_1(1-p_1)+p_2(1-p_2)/r}\right)^2}{(p_1-p_2)^2} \)

donde \(z_\alpha\) es el cuantil \(1-\alpha/2\) (bilateral) o \(1-\alpha\) (unilateral) de la normal estándar, y \(z_\beta\) es el cuantil \(1-\beta\).

Paso 2 — Corrección de continuidad (Casagrande y Pike, 1978):

\( n_1 = \frac{n_1^{(0)}}{4}\left(1 + \sqrt{1 + \frac{2(1+1/r)}{n_1^{(0)}\,|p_1-p_2|}}\right)^2 \)

\( n_2 = \lceil r \cdot n_1 \rceil \quad;\quad n_1 = \lceil n_1 \rceil \quad;\quad N = n_1 + n_2 \)

\(p_1\), \(p_2\): proporciones esperadas bajo la alternativa \(H_1\) en cada grupo.
\(r\): razón \(n_2/n_1\). Con \(r = 1\) los grupos tienen el mismo tamaño.
\(\bar{p}\): proporción conjunta ponderada; representa la proporción bajo \(H_0\) si los grupos fuesen iguales.
Corrección de continuidad: aumenta el n para compensar la discretización del test exacto.

Configuración rápida

p₁ y p₂: introduce las proporciones que esperas observar en cada grupo. La diferencia \(|p_1 - p_2|\) es el efecto a detectar. Diferencias mayores requieren menos muestra.
α: nivel de significación. 0,05 es el estándar habitual; usa 0,01 si quieres controlar más el error tipo I.
Potencia: 0,80 (80 %) es el mínimo habitual; 0,90 o 0,95 para estudios confirmatorios o de alta relevancia clínica.
r: si los grupos son naturalmente desiguales (p. ej., casos y controles), ajusta r al cociente esperado de tamaños. r = 1 es el más eficiente por participante total.
Contraste unilateral: úsalo solo si tienes una hipótesis direccional a priori justificada; un contraste unilateral requiere menos muestra pero no detecta diferencias en la dirección contraria.
Corrección de continuidad: la calculadora siempre aplica la corrección de Casagrande y Pike para el test exacto de Fisher. Si prefieres el n sin corrección (por ejemplo para un chi-cuadrado estándar), úsalo como referencia inferior.

Ejemplo resuelto

Un ensayo clínico compara la tasa de respuesta a un tratamiento en dos grupos. Se espera una respuesta del 40 % en el grupo tratado (\(p_1 = 0{,}40\)) y del 20 % en el grupo control (\(p_2 = 0{,}20\)). Se elige \(\alpha = 0{,}05\) bilateral y potencia del 80 %. Los grupos tienen el mismo tamaño (\(r = 1\)).

Paso 1 — proporción ponderada: \(\bar{p} = (0{,}40 + 0{,}20)/2 = 0{,}30\).

Con \(z_{\alpha/2} = 1{,}960\) y \(z_\beta = 0{,}842\):

\( n_1^{(0)} = \frac{\bigl(1{,}960\sqrt{2\times0{,}30\times0{,}70} + 0{,}842\sqrt{0{,}40\times0{,}60+0{,}20\times0{,}80}\bigr)^2}{(0{,}20)^2} \approx \frac{(1{,}960\times0{,}648 + 0{,}842\times0{,}566)^2}{0{,}04} \approx \frac{(1{,}270+0{,}477)^2}{0{,}04} \approx \frac{3{,}050}{0{,}04} \approx 76{,}3 \)

Paso 2 — corrección de continuidad:

\( n_1 = \frac{81{,}2}{4}\left(1 + \sqrt{1 + \frac{4}{81{,}2\times0{,}20}}\right)^2 \approx 20{,}3\times(1+\sqrt{1{,}246})^2 \approx 20{,}3\times(1+1{,}116)^2 \approx 20{,}3\times4{,}478 \approx 90{,}9 \)

Redondeando: n₁ = 91 y n₂ = 91 (total = 182). Con esta muestra, el test exacto de Fisher detectará la diferencia de 20 puntos porcentuales el 80 % de las veces.

Supuestos del modelo

Dos grupos independientes con una respuesta binaria (éxito/fracaso).
Observaciones independientes; cada unidad contribuye a una sola celda de la tabla 2×2.
Planteamiento condicional de Fisher (totales marginales fijos), adecuado cuando las frecuencias esperadas son bajas.
El tamaño se obtiene con la aproximación de Fleiss y se redondea hacia arriba.

Cómo interpretar el resultado

Los valores \(n_1\) y \(n_2\) son los tamaños mínimos por grupo para detectar la diferencia entre proporciones \(p_1\) y \(p_2\) mediante el test exacto de Fisher con la potencia y el nivel \(\alpha\) especificados. El total a reclutar es \(N = n_1 + n_2\). Redondea siempre hacia arriba y añade un margen por pérdidas: divide cada \(n_i\) entre \((1 - \text{tasa de pérdida})\). El test exacto de Fisher es apropiado precisamente cuando alguna frecuencia esperada cae por debajo de 5; si todas las frecuencias esperadas son \(\geq 5\), el chi-cuadrado de Pearson es igualmente válido y generalmente más familiar para revisores.

El cálculo de tamaño muestral para Fisher se basa en la distribución hipergeométrica, que es discreta. Esto implica que el nivel de significación real del test puede ser inferior al nominal \(\alpha\) (el test es conservador), y la potencia real puede ser ligeramente distinta de la planificada para el \(n\) exacto calculado. En la práctica, se recomienda añadir un par de unidades adicionales al \(n\) por grupo para compensar la discretización. Realiza un análisis de sensibilidad variando \(p_1\) y \(p_2\) en ±0,05: cuando ambas proporciones son muy extremas (\(<0{,}05\) o \(>0{,}95\)), el test exacto gana importancia frente al chi-cuadrado y el \(n\) puede ser distinto del estimado por la fórmula normal aproximada.

Si el \(n\) calculado resulta tan grande que las frecuencias esperadas en todas las celdas superarían ampliamente 5, considera si el test chi-cuadrado no sería más apropiado (y planifica el \(n\) con la calculadora de contraste para dos proporciones). Cuando el \(n\) sea inviable, revisa si la diferencia mínima detectable \(|p_1 - p_2|\) es realista o si puede ampliarse. Con los datos recogidos, realiza el análisis con la calculadora de contraste para dos proporciones eligiendo el test de Fisher si las frecuencias esperadas son bajas.

Referencias

Fleiss, J. L. (1981). Statistical Methods for Rates and Proportions (2.ª ed.). Wiley.
Casagrande, J. T., & Pike, M. C. (1978). An improved approximate formula for calculating sample sizes for comparing two binomial distributions. Biometrics, 34(3), 483–486.
Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and Proportions (3.ª ed.). Wiley.

Preguntas frecuentes

¿Cuándo debo usar el test exacto de Fisher en lugar del chi-cuadrado? Cuando alguna frecuencia esperada en la tabla 2×2 es inferior a 5, o cuando el tamaño muestral total es pequeño (N < 20–25). En muestras grandes, ambos tests convergen al mismo resultado.
¿Por qué la corrección de continuidad aumenta el tamaño muestral? Porque el test exacto de Fisher opera sobre la distribución discreta hipergeométrica. La corrección ajusta el n para garantizar que la potencia real del test discreto alcance el objetivo, en lugar de la potencia asintótica continua.
¿El tamaño muestral calculado es exacto? No; es una aproximación. El valor real depende de los parámetros verdaderos y de la discretización de la distribución hipergeométrica. Para confirmación en estudios críticos, complementa con simulación de Monte Carlo.
¿Puedo usar esta calculadora para un diseño caso-control? Sí. Introduce la proporción de expuestos en casos como \(p_1\), la de controles como \(p_2\), y ajusta \(r\) a la razón de controles por caso deseada.