Contrastes de hipótesis

Calculadora del test exacto de Fisher (2×2)

Contraste exacto de independencia para tablas 2×2 con frecuencias pequeñas.

Calculadora

Introduce los recuentos de la tabla 2×2 y obtén el p-valor exacto, la odds ratio y la decisión del contraste.

Columna A Columna B
Fila 1
Fila 2
Resultado pendiente…

El gráfico muestra la función de probabilidad de la distribución hipergeométrica: cada barra representa la probabilidad exacta de que la celda a tome el valor k, dados los márgenes fijos de la tabla. Las barras en rojo son las que contribuyen al p-valor (las más extremas según el tipo de contraste); la barra en naranja marca el valor observado. El p-valor es la suma de las probabilidades rojas.

Explicación

El test exacto de Fisher permite contrastar si existe asociación entre dos variables categóricas binarias organizadas en una tabla 2×2. A diferencia del chi-cuadrado de Pearson, no necesita ninguna aproximación asintótica: calcula la probabilidad exacta de cada tabla posible con los mismos márgenes fijos usando la distribución hipergeométrica.

Es especialmente adecuado cuando las frecuencias esperadas son bajas (por ejemplo, menores que 5 en alguna celda), en ensayos clínicos pequeños, estudios de eventos raros o análisis de subgrupos. Cuando el tamaño muestral es grande, el chi-cuadrado de Pearson tiende a coincidir con Fisher.

Bajo la hipótesis nula de independencia, el recuento en la celda (1,1) sigue una distribución hipergeométrica condicionada a los márgenes de la tabla:

Hipótesis y estadístico

\(H_0\): independencia entre filas y columnas (OR = 1)

\(H_1\): asociación (OR ≠ 1)

\[P(X = k) = \frac{\dbinom{a+b}{k}\dbinom{c+d}{a+c-k}}{\dbinom{n}{a+c}}\]

\[\text{OR} = \frac{a \cdot d}{b \cdot c}\]

Contraste rápido

El p-valor exacto se obtiene sumando las probabilidades hipergeométricas de todas las tablas con los mismos márgenes que son al menos tan extremas como la observada. Para el contraste bilateral se suman todas las tablas cuya probabilidad es menor o igual que la de la tabla observada.

Cola derecha: \(\displaystyle p = \sum_{k \geq a} P(X = k)\)

Cola izquierda: \(\displaystyle p = \sum_{k \leq a} P(X = k)\)

Bilateral: \(\displaystyle p = \sum_{P(X=k)\,\leq\,P(X=a)} P(X = k)\)

La odds ratio (OR) cuantifica la fuerza de la asociación: OR = 1 indica independencia, OR > 1 indica mayor frecuencia del evento en la fila 1, OR < 1 indica lo contrario. Para completar el análisis conviene acompañar el p-valor con un intervalo de confianza para el OR.

Ejemplo resuelto

En un ensayo clínico se asignan aleatoriamente 20 pacientes a dos grupos: 10 reciben el tratamiento y 10 reciben placebo. En el grupo tratamiento, 7 pacientes se recuperan y 3 no se recuperan. En el grupo control, 4 se recuperan y 6 no se recuperan. La tabla de contingencia \(2 \times 2\) es la siguiente: tratamiento/recuperado = 7, tratamiento/no recuperado = 3, control/recuperado = 4, control/no recuperado = 6.

Con frecuencias esperadas pequeñas en alguna celda el chi-cuadrado habitual puede ser impreciso, por lo que se aplica el test exacto de Fisher. Los marginales son: fila 1 (tratamiento) = 10, fila 2 (control) = 10, columna 1 (recuperados) = 11, columna 2 (no recuperados) = 9, total = 20.

La probabilidad exacta de obtener la tabla observada bajo \(H_0\) (independencia) se calcula con la distribución hipergeométrica:

\( P = \frac{\binom{11}{7}\binom{9}{3}}{\binom{20}{10}} = \frac{330 \times 84}{184756} \approx 0{,}150 \)

El p-valor unilateral (¿es el tratamiento mejor que el placebo?) se obtiene sumando las probabilidades de todas las tablas igual de extremas o más extremas en la dirección favorable al tratamiento: \(P(X \geq 7) = P(7)+P(8)+P(9)+P(10) \approx 0{,}150 + 0{,}032 + 0{,}003 + 0{,}0001 \approx 0{,}185\). El p-valor bilateral es \(p_{\text{bilateral}} \approx 0{,}37\).

Dado que \(p_{\text{bilateral}} = 0{,}37 > 0{,}05 = \alpha\), no se rechaza \(H_0\). La odds ratio observada es \(\widehat{OR} = (7 \times 6)/(3 \times 4) = 42/12 = 3{,}5\), lo que sugiere una tendencia favorable al tratamiento, pero la muestra (n = 20) no es suficientemente grande para alcanzar significación estadística.

Conclusión: con un nivel de significación del 5 %, no se puede concluir que exista una asociación estadísticamente significativa entre el tratamiento y la recuperación. Se recomienda replicar el estudio con mayor tamaño muestral para detectar diferencias clínicamente relevantes con potencia adecuada.

Cómo interpretar el resultado

Si el p-valor exacto es menor que \(\alpha\), se rechaza \(H_0\): hay evidencia estadística de asociación entre las filas y las columnas de la tabla 2×2. Si el p-valor es mayor o igual que \(\alpha\), no hay evidencia suficiente para rechazar la independencia con los datos disponibles. A diferencia del chi-cuadrado, este p-valor es exacto: no depende de ninguna aproximación asintótica y es fiable incluso cuando las frecuencias esperadas son muy pequeñas o alguna celda contiene pocos casos.

La odds ratio (OR) cuantifica la magnitud y la dirección de la asociación. Una OR = 1 indica independencia perfecta entre las dos variables. Una OR > 1 indica que el evento de la fila 1 es más probable en la columna A que en la columna B; OR < 1 indica lo contrario. Por ejemplo, OR = 3.5 significa que la probabilidad del evento es 3.5 veces mayor en el grupo de la fila 1. La dirección e interpretación exacta siempre dependen de cómo se hayan etiquetado filas y columnas: conviene describir el resultado en términos sustantivos del problema, no solo en términos numéricos.

Sobre la elección entre Fisher y chi-cuadrado: el test exacto de Fisher es preferible cuando alguna frecuencia esperada (no observada) es inferior a 5, o cuando el tamaño muestral total es menor de 20. Con muestras grandes, ambos tests convergen y el chi-cuadrado de Pearson es computacionalmente más directo. Una limitación del test de Fisher es que condiciona en los márgenes fijos de la tabla, supuesto que no siempre es realista en estudios prospectivos; en esos casos se discute el uso de alternativas como el test de Barnard, aunque Fisher sigue siendo el estándar en la mayoría de contextos biomédicos y experimentales.

Preguntas frecuentes

  • ¿Cuándo elegir Fisher frente a chi-cuadrado? Cuando alguna frecuencia esperada es inferior a 5, o cuando el tamaño muestral total es menor de 20.
  • ¿Es conservador el test de Fisher? En algunos escenarios puede serlo respecto a alternativas como el test de Barnard, pero es el estándar más aceptado para tablas 2×2 con pocos datos.
  • ¿Puedo usar Fisher con muestras grandes? Sí, aunque con muestras grandes el chi-cuadrado de Pearson ofrece resultados prácticamente idénticos y es computacionalmente más directo.
  • ¿Qué significa que la OR sea 0 o infinita? Ocurre cuando alguna celda vale 0. En ese caso la OR no está definida, aunque el p-valor exacto sí puede calcularse.

Referencia: Prueba exacta de Fisher — Wikipedia