Tamaño muestral

Calculadora de tamaño muestral para el test de Kolmogorov–Smirnov

Calcula el número de observaciones para detectar una desviación d de la distribución teórica con una potencia objetivo mediante la distribución de Kolmogorov exacta.

Calculadora

Introduce la desviación máxima de la CDF (d), el nivel de significación y la potencia deseada para obtener el tamaño muestral mínimo.

Resultado pendiente…

Explicación

El test de Kolmogorov–Smirnov de una muestra contrasta si los datos provienen de una distribución teórica completamente especificada \(F_0\). El estadístico de contraste es la desviación máxima absoluta entre la función de distribución empírica \(\hat{F}_n\) y la teórica:

\( D_n = \sup_x \left| \hat{F}_n(x) - F_0(x) \right| \)

El tamaño del efecto es \(d = \max_x |F_{\text{verdadera}}(x) - F_0(x)|\), es decir, la máxima distancia vertical entre la CDF real y la hipotética. Bajo \(H_0\), la distribución asintótica de \(\sqrt{n}\,D_n\) es la distribución de Kolmogorov.

La fórmula de potencia usa la aproximación por desplazamiento (shift model): bajo \(H_1\), el estadístico \(\sqrt{n}\,D_n\) se desplaza aproximadamente \(d\sqrt{n}\) respecto a su distribución bajo \(H_0\). Esta aproximación es conservadora para muestras pequeñas y muy precisa para \(n \geq 30\).

Fórmula de potencia

La CDF de la distribución de Kolmogorov es:

\( P(K \leq x) = 1 - 2\sum_{k=1}^{\infty} (-1)^{k+1} e^{-2k^2 x^2}, \quad x > 0 \)

El cuantil crítico \(k_\alpha\) se define por \(P(K > k_\alpha) = \alpha\), es decir, \(1 - P(K \leq k_\alpha) = \alpha\). Se halla mediante búsqueda binaria.

La potencia del test para tamaño muestral \(n\) se estima como:

\( \text{Potencia}(n) = 1 - P\!\left(K \leq k_\alpha - d\sqrt{n}\right) \)

La calculadora busca el menor \(n\) entero tal que esta expresión alcanza la potencia objetivo. Cuando \(k_\alpha - d\sqrt{n} \leq 0\), la potencia es 1.

Configuración rápida

  • d = 0,10: efecto pequeño. La distribución real se aleja de la teórica como máximo 0,10 en la CDF. Requiere muestras grandes.
  • d = 0,20: efecto mediano. Desviación claramente visible en un gráfico P-P o Q-Q. Tamaño muestral moderado.
  • d = 0,30: efecto grande. Diferencia sustancial entre distribuciones; se detecta con muestras relativamente pequeñas.
  • α: 0,05 es el estándar habitual; usa 0,01 si el coste de un falso positivo es alto.
  • Potencia: 0,80 como mínimo habitual; 0,90 si los falsos negativos tienen consecuencias importantes.
  • Distribución completamente especificada: si estimas parámetros de los datos (media, varianza…), la distribución del estadístico cambia y el nivel nominal ya no es válido; en ese caso usa el test de Lilliefors.

Ejemplo resuelto

Un ingeniero de procesos quiere contrastar si los tiempos de fallo de un componente siguen una distribución exponencial con tasa \(\lambda_0 = 0{,}1\) (completamente especificada). Basándose en datos históricos, cree que la CDF real se desvía como máximo \(d = 0{,}15\) de la exponencial teórica.

Con \(d = 0{,}15\), \(\alpha = 0{,}05\) y potencia del 80 %, la calculadora encuentra:

  1. El cuantil crítico \(k_{0{,}05} \approx 1{,}358\) mediante búsqueda binaria en la distribución de Kolmogorov.
  2. El menor \(n\) tal que \(1 - P(K \leq 1{,}358 - 0{,}15\sqrt{n}) \geq 0{,}80\).

El resultado según la aproximación del modelo de desplazamiento es n = 23 observaciones. Con esa muestra, si la CDF real se aleja 0,15 de la exponencial teórica, el test lo detectará el 80 % de las veces según esta fórmula asintótica.

Nota sobre la aproximación: el modelo de desplazamiento asintótico tiende a subestimar el tamaño muestral real necesario, especialmente para valores de \(d\) pequeños y \(n\) moderados. Para estudios donde el tamaño muestral sea crítico se recomienda complementar este resultado con simulaciones de Monte Carlo.

Análisis de sensibilidad: con \(d = 0{,}10\) (efecto pequeño) se necesitan n ≈ 51 observaciones; con \(d = 0{,}30\) (efecto grande) bastan n ≈ 6. La muestra necesaria crece aproximadamente como \(1/d^2\).

Cómo interpretar el resultado

El valor \(n\) es el mínimo de observaciones necesarias para que el test de Kolmogorov-Smirnov (KS) detecte la desviación especificada respecto a la distribución teórica con la potencia y el nivel \(\alpha\) indicados. Redondea siempre hacia arriba. Si prevés pérdidas de datos o exclusiones, divide \(n\) entre \((1 - \text{tasa de pérdida})\) para obtener el número de unidades a recoger. Un supuesto crítico es que la distribución teórica bajo \(H_0\) debe estar completamente especificada (todos sus parámetros conocidos a priori): si en cambio los parámetros se estiman a partir de los propios datos (como en el test de Lilliefors para normalidad), las tablas críticas del KS estándar no son válidas y el p-valor estará inflado.

La potencia del test KS depende de la distancia máxima \(D = \sup_x |F_n(x) - F_0(x)|\) que se desea detectar. El test KS es relativamente potente para detectar diferencias en la zona central de la distribución, pero tiene poca potencia para diferencias en las colas. Si las desviaciones que te interesan son principalmente en los extremos (colas pesadas, asimetría), el test de Anderson-Darling o el test de Cramér-von Mises son más potentes y requieren menor \(n\) para la misma eficacia. Realiza un análisis de sensibilidad variando la distancia \(D\) mínima detectable en ±0,05 para evaluar cuánto cambia \(n\).

Si el \(n\) calculado supera varios cientos, ten en cuenta que con muestras muy grandes el test KS detectará desviaciones triviales de la distribución teórica que no tienen relevancia práctica: un \(p < 0{,}05\) no implica que la distribución sea "demasiado distinta" para los propósitos del análisis. En ese contexto, complementa el test con gráficos Q-Q y valora si las desviaciones son sustantivas. Con los datos recogidos, realiza el test con la calculadora de Kolmogorov-Smirnov; si el objetivo es contrastar normalidad específicamente, usa la calculadora de Shapiro-Wilk para muestras pequeñas o medianas.

Referencias

  • Kolmogorov, A. N. (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell'Istituto Italiano degli Attuari, 4, 83–91.
  • Smirnov, N. V. (1948). Table for estimating the goodness of fit of empirical distributions. The Annals of Mathematical Statistics, 19(2), 279–281.
  • Conover, W. J. (1999). Practical Nonparametric Statistics (3.ª ed.). Wiley.
  • Massey, F. J. (1951). The Kolmogorov-Smirnov test for goodness of fit. Journal of the American Statistical Association, 46(253), 68–78.