¿Para qué sirve el test chi-cuadrado de bondad de ajuste?

Para contrastar si una variable categórica sigue una distribución de probabilidades específica (uniforme, Poisson, binomial, o cualquier distribución teórica). Por ejemplo: ¿se distribuyen uniformemente los nacimientos entre los días de la semana?

¿Cómo se calculan los grados de libertad en bondad de ajuste?

df = k − 1 − p, donde k es el número de categorías y p es el número de parámetros estimados de los datos. Si la distribución teórica está completamente especificada (sin estimar parámetros), df = k − 1.

¿Cómo calculo la w de Cohen para un test de bondad de ajuste?

w = sqrt(Σ (p_obs,i − p_teo,i)² / p_teo,i), donde p_obs,i son las proporciones observadas esperadas bajo H1 y p_teo,i las proporciones teóricas bajo H0. El asistente de la calculadora permite calcularla introduciendo las proporciones de cada categoría.

¿Cuántas observaciones mínimas se necesitan por celda?

La regla habitual es que la frecuencia esperada en cada celda sea al menos 5. Divide N entre k para comprobar que la frecuencia media esperada por celda sea suficiente.

Tamaño muestral chi-cuadrado bondad

Calculadora

Introduce la w de Cohen, el número de categorías k, el nivel de significación y la potencia deseada.

Tamaño de efecto w de Cohen

Número de categorías (k)

Alfa (α)

Potencia (1-β)

Resultado pendiente…

Asistente: calcular w desde proporciones observadas y teóricas

Introduce las proporciones bajo H1 (observadas esperadas) y bajo H0 (teóricas) separadas por comas. El número de valores debe ser igual a k.

Proporciones H1 (p_obs) — separadas por comas

Proporciones H0 (p_teo) — separadas por comas

Explicación

El test chi-cuadrado de bondad de ajuste contrasta si la distribución observada de una variable categórica se ajusta a una distribución teórica especificada \(H_0\). Con \(k\) categorías, el estadístico tiene \(df = k-1\) grados de libertad bajo \(H_0\) (asumiendo que los parámetros de la distribución teórica son conocidos).

Bajo la alternativa, el estadístico sigue una distribución chi-cuadrado no central con parámetro \(\lambda = N \cdot w^2\), donde \(N\) es el tamaño muestral y \(w\) es la \(w\) de Cohen.

Parámetro de no centralidad y potencia

\( \lambda = N \cdot w^2 \)

\( w = \sqrt{\sum_{i=1}^k \frac{(p_{\text{obs},i} - p_{\text{teo},i})^2}{p_{\text{teo},i}}} \)

\( \text{Potencia} = 1 - F_{\chi^2_{df,\,\lambda}}\!\left(\chi^2_{1-\alpha,\,df}\right) \quad \text{con } df = k-1 \)

La distribución chi-cuadrado no central se evalúa exactamente mediante la mezcla de Poisson de chi-cuadrados centrales:

\( F_{\chi^2_{df,\lambda}}(x) = \sum_{k=0}^{\infty} \frac{e^{-\lambda/2}(\lambda/2)^k}{k!} \cdot F_{\chi^2_{df+2k}}(x) \)

Configuración rápida

w: 0,1 (pequeño), 0,3 (mediano), 0,5 (grande) según Cohen. Usa el asistente si tienes las proporciones esperadas.
k: número total de categorías. Los grados de libertad son df = k−1 (sin parámetros estimados).
Frecuencias esperadas: comprueba que N/k ≥ 5 para que la aproximación chi-cuadrado sea válida.
Parámetros estimados: si estimas p parámetros de los datos, resta p a df: df = k−1−p.

Ejemplo resuelto

Un biólogo quiere contrastar si el color de ciertos insectos (5 categorías: amarillo, rojo, verde, azul, negro) sigue una distribución uniforme (\(p_0 = 0{,}20\) para cada categoría). Basándose en datos previos, espera que la distribución real sea (0,30; 0,25; 0,20; 0,15; 0,10).

Con el asistente: \(w = \sqrt{(0{,}30-0{,}20)^2/0{,}20 + (0{,}25-0{,}20)^2/0{,}20 + 0 + (0{,}15-0{,}20)^2/0{,}20 + (0{,}10-0{,}20)^2/0{,}20} = \sqrt{0{,}05+0{,}0125+0+0{,}0125+0{,}05} = \sqrt{0{,}125} \approx 0{,}354\).

Con \(w = 0{,}354\), \(df = 4\), \(\alpha = 0{,}05\) y potencia del 80 %, se necesitan aproximadamente N = 69 insectos. Con esa muestra, el test detectará la desviación de la distribución uniforme el 80 % de las veces.

Verificación: N/k = 69/5 = 13,8 ≥ 5. La aproximación chi-cuadrado es adecuada.

Supuestos del modelo

Muestra aleatoria de observaciones independientes.
Variable categórica con \(k\) categorías mutuamente excluyentes y exhaustivas.
Frecuencias esperadas suficientemente grandes (regla habitual: \(E_i \ge 5\)).
El tamaño del efecto se expresa con la \(w\) de Cohen y la potencia se calcula con la distribución chi-cuadrado no central.

Cómo interpretar el resultado

El valor \(N\) es el total de observaciones necesarias (suma de todas las categorías) para que el test chi-cuadrado de bondad de ajuste tenga la potencia y el nivel de significación especificados. Redondea siempre hacia arriba. Si prevés que algunos registros serán descartados por errores o valores faltantes, divide \(N\) entre \((1 - \text{tasa de pérdida})\) para obtener el número de recogida real. El número de observaciones esperadas en cada categoría \(i\) bajo \(H_0\) es \(N \times p_{0i}\); verifica que todas estas frecuencias esperadas sean \(\geq 5\) para que la aproximación chi-cuadrado sea válida.

El tamaño del efecto \(w\) de Cohen cuantifica cuánto se aleja la distribución real (\(p_{1i}\)) de la distribución teórica (\(p_{0i}\)): \(w = \sqrt{\sum_i (p_{1i} - p_{0i})^2 / p_{0i}}\). Un valor \(w = 0{,}10\) es pequeño, \(w = 0{,}30\) mediano y \(w = 0{,}50\) grande. La sensibilidad del \(N\) a \(w\) es cuadrática: si el efecto real es un 30 % menor de lo especificado, \(N\) aumenta aproximadamente un 100 \% \((1/0{,}7^2 \approx 2{,}04)\). Si alguna de las proporciones teóricas \(p_{0i}\) es muy pequeña, la categoría correspondiente puede tener muy pocas observaciones esperadas; en ese caso, fusiona categorías con sentido teórico hasta alcanzar frecuencias esperadas \(\geq 5\) y recalcula los grados de libertad del test.

Cuando el \(N\) calculado resulte inviable, las palancas son: (1) aceptar un \(w\) mayor (detectar solo efectos más grandes), (2) reducir la potencia, o (3) reducir el número de categorías fusionando las más pequeñas. Si alguna frecuencia esperada cae por debajo de 5 incluso con el \(N\) calculado, recurre a pruebas exactas multinomiales. Con los datos recogidos, realiza el contraste con la calculadora de chi-cuadrado de bondad de ajuste y compara los residuos estandarizados por categoría para identificar dónde se concentran las diferencias respecto a la distribución teórica.

Referencias

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2.ª ed.). Lawrence Erlbaum Associates.
Agresti, A. (2013). Categorical Data Analysis (3.ª ed.). Wiley.