Contrastes de hipótesis

Calculadora de Kolmogorov-Smirnov de bondad de ajuste

Evalúa si una muestra de datos sigue una distribución teórica continua especificada.

Calculadora

Introduce los datos de la muestra separados por comas, selecciona la distribución teórica e introduce sus parámetros conocidos.

Resultado pendiente…

Explicación

El test de Kolmogorov-Smirnov de bondad de ajuste (test KS) permite evaluar si una muestra de datos proviene de una distribución de probabilidad continua previamente especificada. A diferencia del chi-cuadrado de bondad de ajuste, no requiere agrupar los datos en intervalos y trabaja directamente con los valores individuales de la muestra, lo que lo hace especialmente adecuado para distribuciones continuas.

La idea central es comparar la función de distribución empírica \(F_n(x)\) —la proporción de observaciones menores o iguales que \(x\)— con la función de distribución teórica \(F_0(x)\) bajo la hipótesis nula. El estadístico de contraste es la máxima discrepancia en valor absoluto entre ambas funciones.

Por ejemplo, si se registran los tiempos de respuesta de 25 servidores y se quiere saber si siguen una distribución Exponencial con tasa λ = 0,5, el test KS cuantifica cuánto se aleja la distribución empírica de esa Exponencial y calcula la probabilidad de que esa diferencia sea atribuible al azar de muestreo.

El estadístico \(D_n\) sigue la distribución de Kolmogorov bajo la hipótesis nula cuando los parámetros de la distribución son conocidos y no se estiman con los propios datos. El test es siempre bilateral: detecta cualquier tipo de desviación respecto al modelo teórico, en cualquier región de la distribución.

Hipótesis y estadístico

\(H_0\): la muestra proviene de la distribución teórica \(F_0\)

\(H_1\): la muestra no proviene de \(F_0\)

\(D_n = \sup_x \left| F_n(x) - F_0(x) \right|\)

Contraste rápido

Se ordenan los datos de menor a mayor: \(x_{(1)} \leq x_{(2)} \leq \cdots \leq x_{(n)}\). La función de distribución empírica \(F_n\) es la función escalonada que salta en \(1/n\) en cada observación. El estadístico \(D_n\) mide la máxima distancia entre \(F_n\) y la distribución teórica \(F_0\), considerando tanto el valor justo antes como justo después de cada salto:

\(D_n = \max_{1 \leq i \leq n}\left\{ \left|\frac{i}{n} - F_0(x_{(i)})\right|,\, \left|\frac{i-1}{n} - F_0(x_{(i)})\right| \right\}\)

Bajo \(H_0\), la distribución de \(\sqrt{n}\,D_n\) converge a la distribución de Kolmogorov. El p-valor se obtiene mediante la fórmula asintótica:

\(p \approx 2\sum_{k=1}^{\infty}(-1)^{k-1}\exp\!\left(-2k^2 n D_n^2\right)\)

Esta aproximación es fiable para \(n \geq 20\). Con muestras más pequeñas, el p-valor es aproximado y conviene interpretar los resultados con cautela. Si los parámetros de la distribución se han estimado con los propios datos (en lugar de ser conocidos de antemano), los p-valores calculados con esta fórmula son demasiado grandes: el test resulta conservador. En ese caso, para normalidad se recomienda el test de Lilliefors; para otras distribuciones, existen variantes análogas con correcciones específicas.

Ejemplo resuelto

Se miden los tiempos de espera (en minutos) de 8 clientes en una oficina: 1,2; 2,1; 2,8; 3,4; 4,1; 5,0; 5,8; 6,5. Se desea comprobar, con \(\alpha = 0{,}05\), si estos datos provienen de una distribución Uniforme en el intervalo \([0,\, 8]\).

Las hipótesis son \(H_0\): la muestra sigue una distribución \(\text{Uniforme}(0,8)\) frente a \(H_1\): la muestra no sigue esa distribución. La función de distribución teórica es \(F_0(x) = x/8\) para \(x \in [0,8]\).

Con los datos ya ordenados se construye la función de distribución empírica \(F_n(x_i) = i/n\) y se calcula la diferencia máxima \(D = \max_i |F_n(x_i) - F_0(x_i)|\):

\( D = \max\!\left\{\left|\tfrac{i}{8} - \tfrac{x_i}{8}\right|,\; \left|\tfrac{i-1}{8} - \tfrac{x_i}{8}\right|\right\} \)

En cada observación se calculan dos diferencias: el paso superior \(|i/n - F_0(x_i)|\) y el paso inferior \(|(i-1)/n - F_0(x_i)|\), y se retiene el mayor. Los valores más destacados son: para \(x_1 = 1{,}2\), paso inferior \(|0/8 - 0{,}150| = 0{,}150\); para \(x_7 = 5{,}8\), paso superior \(|7/8 - 0{,}725| = 0{,}150\); para \(x_8 = 6{,}5\), paso superior \(|8/8 - 0{,}8125| = 0{,}1875\). El máximo global resulta \(D = 0{,}1875\), alcanzado en \(x_8 = 6{,}5\).

El valor crítico tabulado para \(n = 8\) y \(\alpha = 0{,}05\) es \(D_{0{,}05;\,8} \approx 0{,}457\). Dado que \(D = 0{,}1875 < 0{,}457\), no se rechaza \(H_0\).

Conclusión: con un nivel de significación del 5 %, no hay evidencia suficiente para afirmar que los tiempos de espera difieren de una distribución Uniforme en \([0, 8]\). La discrepancia máxima observada entre la distribución empírica y la teórica es pequeña en relación con la variabilidad esperada para muestras de ese tamaño.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < \(\alpha\)) significa que la función de distribución empírica \(F_n(x)\) se aleja de la función teórica \(F_0(x)\) más de lo que el azar puede explicar. Los datos no son compatibles con el modelo distribucional propuesto al nivel de significación elegido. La localización de la máxima discrepancia —indicada por la línea ámbar vertical en la visualización— revela en qué zona de la distribución se concentra el desajuste: una discrepancia en la cola izquierda señala que los datos tienen menos masa de la esperada en valores bajos; en la cola derecha, lo contrario; en el centro, desajuste en la mediana o la moda.

No rechazar \(H_0\) (p-valor ≥ \(\alpha\)) no demuestra que los datos «siguen» la distribución teórica; solo indica que son compatibles con ella al nivel elegido. Con muestras pequeñas la potencia es baja y desviaciones moderadas pueden pasar desapercibidas. Con muestras muy grandes, el test puede rechazar modelos que se ajustan razonablemente bien en la práctica. Por eso es recomendable complementar el p-valor con la inspección visual de las curvas FDE empírica y teórica: si se solapan casi perfectamente, el modelo es adecuado aunque \(D_n\) sea no nulo.

El estadístico \(D_n\) es la máxima distancia vertical entre la FDE empírica y la teórica. La zona verde en la visualización representa la banda de tolerancia alrededor de \(F_0(x)\) compatible con \(H_0\); si la FDE empírica supera esa banda, \(D_n\) cae en la región crítica (zona roja). Una ventaja del test KS frente al chi-cuadrado de bondad de ajuste es que no requiere agrupar datos en categorías, siendo especialmente útil para distribuciones continuas. Sin embargo, si los parámetros de la distribución teórica se han estimado de los propios datos, los valores críticos deben corregirse (test de Lilliefors para normalidad, por ejemplo).

Preguntas frecuentes

  • ¿Cuándo usar el test KS en lugar del chi-cuadrado de bondad de ajuste? El test KS es preferible para distribuciones continuas y muestras no muy grandes, porque no requiere agrupar datos en intervalos y es más potente en ese contexto. El chi-cuadrado es más adecuado para datos categóricos o cuando se trabaja con grandes muestras de datos continuos previamente agrupados.
  • ¿Qué ocurre si estimo los parámetros con los propios datos? Si los parámetros de la distribución teórica se estiman con la misma muestra, el test KS estándar es conservador: los p-valores son mayores de lo que deberían, lo que reduce la potencia. Para normalidad con parámetros estimados usa el test de Lilliefors; para otras distribuciones existen variantes análogas.
  • ¿El test KS funciona para distribuciones discretas? No está diseñado para distribuciones discretas. Con ellas, la distribución del estadístico \(D_n\) bajo \(H_0\) cambia y la aproximación de Kolmogorov es inexacta. Para datos discretos (recuentos por categoría), usa el chi-cuadrado de bondad de ajuste.
  • ¿Cuántas observaciones se necesitan? Para que la aproximación asintótica del p-valor sea fiable se recomienda \(n \geq 20\). Con muestras más pequeñas el p-valor es aproximado y la potencia para detectar desviaciones moderadas es baja.
  • ¿El test es siempre bilateral? Sí. El estadístico \(D_n = \sup|F_n - F_0|\) mide la máxima discrepancia en cualquier dirección, de modo que el test detecta tanto exceso como defecto de masa respecto al modelo teórico en cualquier región. No existe una versión estándar unilateral del test KS de una muestra.
  • ¿Qué diferencia hay con el test KS de dos muestras? El test de una muestra (bondad de ajuste) compara los datos con una distribución teórica completamente especificada. El test de dos muestras contrasta si dos muestras independientes provienen de la misma distribución, sin necesidad de especificar cuál es esa distribución.

Referencia: Prueba de Kolmogórov–Smirnov — Wikipedia