¿Qué es el efecto d en el test KS?

El efecto d es la desviación máxima absoluta entre la función de distribución acumulada (CDF) verdadera F(x) y la CDF teórica bajo H0, es decir, d = max|F_verdadera(x) − F_0(x)|. Mide cuán alejada está la distribución real de la hipotética: d = 0,10 es un efecto pequeño, d = 0,20 moderado y d = 0,30 grande.

¿Cuándo usar el test KS frente al test chi-cuadrado?

El test KS es apropiado para variables continuas y no requiere agrupar datos en categorías, evitando la pérdida de información que conlleva el chi-cuadrado de bondad de ajuste. El chi-cuadrado es preferible para variables categóricas o discretas. Para distribuciones continuas con parámetros completamente especificados, el KS suele tener mayor potencia que el chi-cuadrado.

¿Es válida la fórmula para muestras pequeñas?

La fórmula de potencia basada en la aproximación por desplazamiento (shift model) es conservadora para muestras pequeñas (n < 20–30), lo que significa que el n calculado puede ser ligeramente mayor del estrictamente necesario. Para n pequeño existen tablas exactas de la distribución de Kolmogorov. La aproximación mejora a medida que n crece y es muy precisa para n ≥ 30.

¿Sirve esta calculadora para el test de dos muestras KS?

No directamente. Esta calculadora calcula el tamaño muestral para el test KS de una muestra (contrastar si una muestra proviene de una distribución teórica completamente especificada). El test KS de dos muestras contrasta si dos muestras independientes provienen de la misma distribución y tiene una distribución asintótica diferente; se necesita una calculadora específica para ese caso.

Tamaño muestral Kolmogorov-Smirnov

Calculadora

Introduce la desviación máxima de la CDF (d), el nivel de significación y la potencia deseada para obtener el tamaño muestral mínimo.

Desviación máxima de la CDF (d)

Alfa (α)

Potencia (1-β)

Resultado pendiente…

Explicación

El test de Kolmogorov–Smirnov de una muestra contrasta si los datos provienen de una distribución teórica completamente especificada \(F_0\). El estadístico de contraste es la desviación máxima absoluta entre la función de distribución empírica \(\hat{F}_n\) y la teórica:

\( D_n = \sup_x \left| \hat{F}_n(x) - F_0(x) \right| \)

El tamaño del efecto es \(d = \max_x |F_{\text{verdadera}}(x) - F_0(x)|\), es decir, la máxima distancia vertical entre la CDF real y la hipotética. Bajo \(H_0\), la distribución asintótica de \(\sqrt{n}\,D_n\) es la distribución de Kolmogorov.

La fórmula de potencia usa la aproximación por desplazamiento (shift model): bajo \(H_1\), el estadístico \(\sqrt{n}\,D_n\) se desplaza aproximadamente \(d\sqrt{n}\) respecto a su distribución bajo \(H_0\). Esta aproximación es conservadora para muestras pequeñas y muy precisa para \(n \geq 30\).

Fórmula de potencia

La CDF de la distribución de Kolmogorov es:

\( P(K \leq x) = 1 - 2\sum_{k=1}^{\infty} (-1)^{k+1} e^{-2k^2 x^2}, \quad x > 0 \)

El cuantil crítico \(k_\alpha\) se define por \(P(K > k_\alpha) = \alpha\), es decir, \(1 - P(K \leq k_\alpha) = \alpha\). Se halla mediante búsqueda binaria.

La potencia del test para tamaño muestral \(n\) se estima como:

\( \text{Potencia}(n) = 1 - P\!\left(K \leq k_\alpha - d\sqrt{n}\right) \)

La calculadora busca el menor \(n\) entero tal que esta expresión alcanza la potencia objetivo. Cuando \(k_\alpha - d\sqrt{n} \leq 0\), la potencia es 1.

Configuración rápida

d = 0,10: efecto pequeño. La distribución real se aleja de la teórica como máximo 0,10 en la CDF. Requiere muestras grandes.
d = 0,20: efecto mediano. Desviación claramente visible en un gráfico P-P o Q-Q. Tamaño muestral moderado.
d = 0,30: efecto grande. Diferencia sustancial entre distribuciones; se detecta con muestras relativamente pequeñas.
α: 0,05 es el estándar habitual; usa 0,01 si el coste de un falso positivo es alto.
Potencia: 0,80 como mínimo habitual; 0,90 si los falsos negativos tienen consecuencias importantes.
Distribución completamente especificada: si estimas parámetros de los datos (media, varianza…), la distribución del estadístico cambia y el nivel nominal ya no es válido; en ese caso usa el test de Lilliefors.

Ejemplo resuelto

Un ingeniero de procesos quiere contrastar si los tiempos de fallo de un componente siguen una distribución exponencial con tasa \(\lambda_0 = 0{,}1\) (completamente especificada). Basándose en datos históricos, cree que la CDF real se desvía como máximo \(d = 0{,}15\) de la exponencial teórica.

Con \(d = 0{,}15\), \(\alpha = 0{,}05\) y potencia del 80 %, la calculadora encuentra:

El cuantil crítico \(k_{0{,}05} \approx 1{,}358\) mediante búsqueda binaria en la distribución de Kolmogorov.
El menor \(n\) tal que \(1 - P(K \leq 1{,}358 - 0{,}15\sqrt{n}) \geq 0{,}80\).

El resultado según la aproximación del modelo de desplazamiento es n = 23 observaciones. Con esa muestra, si la CDF real se aleja 0,15 de la exponencial teórica, el test lo detectará el 80 % de las veces según esta fórmula asintótica.

Nota sobre la aproximación: el modelo de desplazamiento asintótico tiende a subestimar el tamaño muestral real necesario, especialmente para valores de \(d\) pequeños y \(n\) moderados. Para estudios donde el tamaño muestral sea crítico se recomienda complementar este resultado con simulaciones de Monte Carlo.

Análisis de sensibilidad: con \(d = 0{,}10\) (efecto pequeño) se necesitan n ≈ 51 observaciones; con \(d = 0{,}30\) (efecto grande) bastan n ≈ 6. La muestra necesaria crece aproximadamente como \(1/d^2\).

Supuestos del modelo

Muestra aleatoria de una variable continua, con observaciones independientes e idénticamente distribuidas.
La distribución teórica de referencia está completamente especificada (sus parámetros no se estiman a partir de los datos).
El tamaño del efecto es la desviación máxima \(d\) entre la distribución teórica y la alternativa.
La potencia se evalúa con la distribución de Kolmogorov exacta.

Cómo interpretar el resultado

El valor \(n\) es el mínimo de observaciones necesarias para que el test de Kolmogorov-Smirnov (KS) detecte la desviación especificada respecto a la distribución teórica con la potencia y el nivel \(\alpha\) indicados. Redondea siempre hacia arriba. Si prevés pérdidas de datos o exclusiones, divide \(n\) entre \((1 - \text{tasa de pérdida})\) para obtener el número de unidades a recoger. Un supuesto crítico es que la distribución teórica bajo \(H_0\) debe estar completamente especificada (todos sus parámetros conocidos a priori): si en cambio los parámetros se estiman a partir de los propios datos (como en el test de Lilliefors para normalidad), las tablas críticas del KS estándar no son válidas y el p-valor estará inflado.

La potencia del test KS depende de la distancia máxima \(D = \sup_x |F_n(x) - F_0(x)|\) que se desea detectar. El test KS es relativamente potente para detectar diferencias en la zona central de la distribución, pero tiene poca potencia para diferencias en las colas. Si las desviaciones que te interesan son principalmente en los extremos (colas pesadas, asimetría), el test de Anderson-Darling o el test de Cramér-von Mises son más potentes y requieren menor \(n\) para la misma eficacia. Realiza un análisis de sensibilidad variando la distancia \(D\) mínima detectable en ±0,05 para evaluar cuánto cambia \(n\).

Si el \(n\) calculado supera varios cientos, ten en cuenta que con muestras muy grandes el test KS detectará desviaciones triviales de la distribución teórica que no tienen relevancia práctica: un \(p < 0{,}05\) no implica que la distribución sea "demasiado distinta" para los propósitos del análisis. En ese contexto, complementa el test con gráficos Q-Q y valora si las desviaciones son sustantivas. Con los datos recogidos, realiza el test con la calculadora de Kolmogorov-Smirnov; si el objetivo es contrastar normalidad específicamente, usa la calculadora de Shapiro-Wilk para muestras pequeñas o medianas.

Referencias

Kolmogorov, A. N. (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell'Istituto Italiano degli Attuari, 4, 83–91.
Smirnov, N. V. (1948). Table for estimating the goodness of fit of empirical distributions. The Annals of Mathematical Statistics, 19(2), 279–281.
Conover, W. J. (1999). Practical Nonparametric Statistics (3.ª ed.). Wiley.
Massey, F. J. (1951). The Kolmogorov-Smirnov test for goodness of fit. Journal of the American Statistical Association, 46(253), 68–78.