¿Cuándo se usa el contraste chi-cuadrado de bondad de ajuste?

Cuando se quiere saber si los recuentos observados en categorías mutuamente excluyentes son compatibles con una distribución teórica previamente especificada.

¿Cuántos grados de libertad tiene el estadístico?

Los grados de libertad son \(k - 1\), donde \(k\) es el número de categorías. Si se han estimado parámetros adicionales del modelo con la propia muestra, se resta uno por cada parámetro estimado.

¿Qué condición deben cumplir las frecuencias esperadas?

La aproximación es adecuada cuando todas las frecuencias esperadas son ≥ 5. Si alguna es inferior, considera agrupar categorías poco frecuentes.

¿Qué diferencia hay con el chi-cuadrado de independencia?

El de bondad de ajuste contrasta si una variable sigue una distribución teórica concreta. El de independencia contrasta si dos variables están asociadas entre sí, a partir de una tabla de contingencia.

¿Las probabilidades teóricas deben sumar exactamente 1?

Sí. La herramienta verifica que las probabilidades introducidas sumen 1 (con tolerancia numérica) y avisa si no se cumple esa condición.

¿Cómo afecta el tamaño muestral al resultado?

Con muestras muy grandes, el contraste puede detectar desviaciones muy pequeñas respecto al modelo teórico que no son relevantes en la práctica. En esos casos conviene complementar el p-valor con una medida de tamaño del efecto.

¿Qué es el tamaño mínimo detectable (MDE) en bondad de ajuste?

Es la desviación mínima respecto al modelo teórico que el test puede detectar con una potencia y α determinados. Cuanto menor sea la muestra, mayor debe ser la discrepancia para que el contraste la detecte; para detectar desviaciones pequeñas se necesita más n.

Calculadora de chi-cuadrado de bondad de ajuste

Calculadora

Introduce las frecuencias observadas y las probabilidades teóricas separadas por comas. Si no indicas probabilidades, se asume distribución uniforme.

Frecuencias observadas

Probabilidades teóricas (opcional)

Nivel de significación (α)

Resultado pendiente…

Frecuencias esperadas pendientes…

Explicación

El contraste chi-cuadrado de bondad de ajuste permite evaluar si la distribución empírica de una variable categórica es compatible con una distribución teórica previamente especificada. La pregunta que responde es: ¿los recuentos observados en cada categoría son compatibles con las probabilidades que postula el modelo, o hay evidencia de que la distribución real difiere?

La idea central es comparar las frecuencias observadas con las frecuencias esperadas que se obtendrían si la hipótesis nula fuera cierta. Si las discrepancias son demasiado grandes para atribuirlas al azar de muestreo, se rechaza el modelo teórico propuesto.

Por ejemplo, un dado equilibrado debería producir cada cara con probabilidad 1/6. Tras 120 lanzamientos, se compara si los recuentos observados son compatibles con esas probabilidades. Otro uso habitual es verificar si la proporción de defectos por tipo en una línea de producción coincide con el patrón histórico esperado.

El estadístico de contraste agrega las discrepancias ponderadas de todas las categorías y sigue una distribución chi-cuadrado bajo la hipótesis nula. Los grados de libertad son \(k - 1\), donde \(k\) es el número de categorías, menos el número de parámetros adicionales estimados con la muestra.

Hipótesis y estadístico

\(H_0\): la distribución observada coincide con la teórica

\(H_1\): la distribución observada no coincide con la teórica

\(\chi^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}\), con \(E_i = n \cdot p_i\)

Contraste rápido

El estadístico chi-cuadrado suma, para cada categoría, el cuadrado de la diferencia entre frecuencia observada y esperada, dividido entre la frecuencia esperada. Bajo la hipótesis nula de que los datos siguen la distribución teórica, este estadístico sigue aproximadamente una distribución \(\chi^2\) con \(k - 1\) grados de libertad:

\(\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \sim \chi^2_{k-1}\)

Las frecuencias esperadas se calculan a partir del tamaño muestral \(n\) y las probabilidades teóricas \(p_i\):

\(E_i = n \cdot p_i\)

donde \(n = \sum_{i=1}^{k} O_i\) es el total de observaciones. Si las probabilidades teóricas son iguales para todas las categorías (distribución uniforme), \(E_i = n / k\) para todo \(i\).

Para que la aproximación chi-cuadrado sea fiable, conviene que todas las frecuencias esperadas sean mayores o iguales que 5. Si alguna categoría tiene frecuencias esperadas muy bajas, considera agrupar categorías antes de aplicar el contraste.

Ejemplo resuelto

Se lanza un dado equilibrado 60 veces y se registran las frecuencias observadas para cada cara: cara 1 → 8 veces; cara 2 → 12; cara 3 → 9; cara 4 → 11; cara 5 → 10; cara 6 → 10. ¿Existe evidencia estadística, a un nivel \(\alpha = 0{,}05\), de que el dado no es equilibrado?

Bajo \(H_0\) (dado justo), la probabilidad de cada cara es \(1/6\), por lo que la frecuencia esperada para cada categoría es \(E_i = 60 \times \tfrac{1}{6} = 10\) lanzamientos.

El estadístico chi-cuadrado de bondad de ajuste se calcula como:

\( \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} = \frac{(8-10)^2}{10} + \frac{(12-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(11-10)^2}{10} + \frac{(10-10)^2}{10} + \frac{(10-10)^2}{10} \)

\( \chi^2 = 0{,}4 + 0{,}4 + 0{,}1 + 0{,}1 + 0 + 0 = 1{,}0 \)

Los grados de libertad son \(gl = k - 1 = 6 - 1 = 5\). El valor crítico para \(\alpha = 0{,}05\) y \(gl = 5\) es \(\chi^2_{0{,}05;\,5} \approx 11{,}07\), y el p-valor asociado a \(\chi^2 = 1{,}0\) con 5 grados de libertad es \(p \approx 0{,}96\).

Dado que \(\chi^2 = 1{,}0 \ll 11{,}07\) (y \(p \gg 0{,}05\)), no se rechaza \(H_0\). Todas las frecuencias esperadas son iguales a 10, bien por encima del mínimo recomendado de 5, por lo que el test es válido en este caso.

Conclusión: no hay evidencia estadística de que el dado esté cargado. Las desviaciones observadas respecto a las frecuencias esperadas son perfectamente compatibles con la variabilidad aleatoria de un dado equilibrado en 60 lanzamientos.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < \(\alpha\)) significa que las frecuencias observadas difieren de las esperadas bajo el modelo teórico más de lo que el azar puede explicar. En la práctica, el modelo distribucional propuesto (uniforme, binomial, Poisson, etc.) no describe adecuadamente los datos. Sin embargo, la significación global no revela dónde está la discrepancia: para localizarla, revisa los residuos estandarizados \((O_i - E_i)/\sqrt{E_i}\) de cada categoría. Valores en valor absoluto superiores a 2 señalan las categorías que más alejan el estadístico del valor esperado bajo \(H_0\).

No rechazar \(H_0\) (p-valor ≥ \(\alpha\)) no demuestra que los datos «siguen» el modelo teórico; solo indica que son compatibles con él al nivel de significación elegido. Con muestras pequeñas la potencia del test es limitada, y desviaciones moderadas pueden pasar desapercibidas. Con muestras muy grandes, en cambio, pequeñas desviaciones sistemáticas de poca relevancia práctica pueden resultar significativas.

El estadístico chi-cuadrado \(\chi^2 = \sum_i (O_i - E_i)^2 / E_i\) agrega las discrepancias cuadráticas de todas las categorías, ponderadas por la frecuencia esperada. En la visualización, la zona verde es la región de no rechazo y la zona roja es la región crítica unilateral derecha (el test de bondad de ajuste siempre es unilateral derecho, ya que \(\chi^2 \geq 0\)); la línea ámbar señala el estadístico observado. Comprueba antes de interpretar que todas las frecuencias esperadas son ≥ 5; si no, agrupa categorías o usa una prueba exacta.

Preguntas frecuentes

¿Cuándo se usa el contraste chi-cuadrado de bondad de ajuste? Cuando se quiere saber si los recuentos observados en categorías mutuamente excluyentes son compatibles con una distribución teórica previamente especificada.
¿Cuántos grados de libertad tiene el estadístico? Los grados de libertad son \(k - 1\), donde \(k\) es el número de categorías. Si se han estimado parámetros adicionales del modelo con la propia muestra, se resta uno por cada parámetro estimado.
¿Qué condición deben cumplir las frecuencias esperadas? La aproximación es adecuada cuando todas las frecuencias esperadas son ≥ 5. Si alguna es inferior, considera agrupar categorías poco frecuentes.
¿Qué diferencia hay con el chi-cuadrado de independencia? El de bondad de ajuste contrasta si una variable sigue una distribución teórica concreta. El de independencia contrasta si dos variables están asociadas entre sí, a partir de una tabla de contingencia.
¿Las probabilidades teóricas deben sumar exactamente 1? Sí. La herramienta verifica que las probabilidades introducidas sumen 1 (con tolerancia numérica) y avisa si no se cumple esa condición.
¿Cómo afecta el tamaño muestral al resultado? Con muestras muy grandes, el contraste puede detectar desviaciones muy pequeñas respecto al modelo teórico que no son relevantes en la práctica. En esos casos conviene complementar el p-valor con una medida de tamaño del efecto.
¿Qué es el tamaño mínimo detectable (MDE) en este test? Es la desviación mínima respecto al modelo teórico que el contraste puede detectar con la potencia y \(\alpha\) fijados. Si la discrepancia real es menor, el test puede no rechazar \(H_0\) aunque exista una diferencia pequeña.

Referencia: Prueba chi-cuadrado de bondad de ajuste — Wikipedia