Calculadora
Introduce la asimetría y la curtosis en exceso de la distribución alternativa, el nivel de significación y la potencia deseada.
Explicación
El test de Shapiro–Wilk contrasta la hipótesis nula de que una muestra proviene de una distribución normal. Su potencia depende de cuánto difiere la distribución real (alternativa) de la normal, y esa diferencia se cuantifica principalmente mediante la asimetría (\(\gamma_1\)) y la curtosis en exceso (\(\gamma_2\)) de la distribución alternativa. Para la distribución normal, \(\gamma_1 = 0\) y \(\gamma_2 = 0\).
Dado que el test de Shapiro–Wilk no dispone de una fórmula analítica de potencia en función de \(n\), esta calculadora utiliza la aproximación de Jarque–Bera, que combina asimetría y curtosis en un estadístico ómnibus cuya distribución bajo \(H_0\) es asintóticamente \(\chi^2(2)\). Esta aproximación proporciona una estimación del n necesario que es conservadora: el n real requerido con Shapiro–Wilk suele ser menor, ya que SW aprovecha más información de la muestra que el test JB.
Fórmula de potencia (aproximación Jarque–Bera)
Bajo la alternativa con parámetros de forma \(\gamma_1\) y \(\gamma_2\), el parámetro de no centralidad del estadístico Jarque–Bera para una muestra de tamaño \(n\) es:
\( \lambda(n) = n \left(\frac{\gamma_1^2}{6} + \frac{\gamma_2^2}{24}\right) \)
Bajo \(H_1\), el estadístico JB sigue aproximadamente una distribución chi-cuadrado no central con 2 grados de libertad y parámetro \(\lambda(n)\). La potencia del test al nivel \(\alpha\) es:
\( 1 - \beta = 1 - F_{\chi^2(2,\,\lambda(n))}\!\left(\chi^2_{1-\alpha,\,2}\right) \)
La distribución chi-cuadrado no central se evalúa mediante la mezcla de Poisson de chi-cuadrados centrales:
\( F_{\chi^2(df,\lambda)}(x) = \sum_{k=0}^{\infty} \frac{e^{-\lambda/2}(\lambda/2)^k}{k!} \cdot F_{\chi^2(df+2k)}(x) \)
La calculadora busca el mínimo entero \(n \geq 3\) para el que la potencia calculada supera el objetivo.
Distribuciones de referencia
La siguiente tabla muestra los momentos y el tamaño muestral aproximado para detectar no-normalidad con potencia del 80 % y \(\alpha = 0{,}05\) (aproximación JB).
| Distribución | γ₁ (asimetría) | γ₂ (curtosis exceso) | n aprox. (80 %, α=0,05) |
|---|---|---|---|
| Exponencial | 2 | 6 | ≈ 10 |
| Log-normal (σ = 0,5) | 1,75 | 5,9 | ≈ 11 |
| Chi-cuadrado (2 gl) | 2 | 6 | ≈ 10 |
| Laplace (doble exponencial) | 0 | 3 | ≈ 52 |
| t de Student (5 gl) | 0 | 6 | ≈ 26 |
| Uniforme | 0 | −1,2 | ≈ 130 |
Los valores de n son estimaciones basadas en la aproximación JB. El test de Shapiro–Wilk suele requerir muestras menores en la práctica.
Configuración rápida
- Distribución alternativa desconocida: si no tienes información sobre γ₁ y γ₂, usa los valores de la distribución más parecida en la tabla anterior o aplica uno de los presets.
- Solo curtosis (distribuciones simétricas): fija γ₁ = 0 e introduce el γ₂ esperado. Ten en cuenta que detectar curtosis sin asimetría requiere muestras considerablemente mayores.
- Solo asimetría: fija γ₂ = 0 e introduce γ₁. Las distribuciones muy asimétricas (|γ₁| > 1,5) pueden detectarse con muestras pequeñas.
- Alfa: 0,05 es el estándar. En estudios confirmatorios donde la normalidad es un supuesto crítico, considera α = 0,10 para ganar potencia.
- Potencia: 0,80 es el mínimo habitual. Para estudios donde el incumplimiento de normalidad tiene consecuencias graves, usa 0,90.
Ejemplo resuelto
Un investigador espera que los tiempos de respuesta en un experimento sigan una distribución exponencial (\(\gamma_1 = 2\), \(\gamma_2 = 6\)). Quiere planificar su estudio de forma que, si los datos realmente provienen de una exponencial, el test de Shapiro–Wilk rechace la normalidad al menos el 80 % de las veces con \(\alpha = 0{,}05\).
Paso 1 — Parámetro de no centralidad:
\( \lambda(n) = n\!\left(\frac{2^2}{6} + \frac{6^2}{24}\right) = n\!\left(\frac{4}{6} + \frac{36}{24}\right) = n\!\left(0{,}6\overline{6} + 1{,}5\right) = n \cdot 2{,}1\overline{6} \)
Paso 2 — Valor crítico: \(\chi^2_{0{,}95,\,2} \approx 5{,}991\).
Paso 3 — Potencia para n = 10:
\( \lambda(10) = 10 \times 2{,}1\overline{6} \approx 21{,}67 \)
\( 1 - \beta \approx 1 - F_{\chi^2(2,\,21{,}67)}(5{,}991) \approx 0{,}83 \geq 0{,}80 \checkmark \)
Con tan solo n = 10 observaciones se supera la potencia objetivo del 80 %. Esto refleja que la distribución exponencial se aleja mucho de la normal (asimetría y curtosis elevadas), por lo que es fácilmente detectable. Puedes verificarlo pulsando el preset "Exponencial" en la calculadora.
Cómo interpretar el resultado
El valor \(n\) es la cota inferior del tamaño muestral recomendado para que el test de Shapiro-Wilk (SW) detecte la desviación de normalidad especificada con la potencia deseada. La fórmula empleada usa la aproximación de Jarque-Bera, que tiende a ser conservadora; el SW es generalmente más potente que JB y puede detectar no-normalidad con muestras algo menores. Redondea siempre hacia arriba. Si prevés pérdidas de datos, divide \(n\) entre \((1 - \text{tasa de pérdida})\) para obtener el reclutamiento necesario. Ten en cuenta que el SW solo está diseñado para \(3 \leq n \leq 5000\); para \(n > 5000\) no es aplicable directamente.
La potencia de SW para detectar no-normalidad depende del tipo de desviación y del \(n\): el test es especialmente potente frente a distribuciones simétricas con colas pesadas (leptocúrticas) o con colas ligeras (platocúrticas), y algo menos eficaz para distribuciones asimétricas moderadas con muestras pequeñas. Para \(n < 8\), la potencia de SW es muy baja independientemente del efecto; si tu muestra es muy pequeña, los tests de normalidad tienen poca utilidad práctica y es preferible apoyarse en el diseño y los gráficos (histograma, Q-Q plot). Realiza un análisis de sensibilidad variando el parámetro de asimetría o curtosis objetivo para ver cuánto cambia el \(n\) requerido.
Si el \(n\) calculado supera 5000, el test SW no es aplicable y deberías usar alternativas como Kolmogorov-Smirnov (con la corrección de Lilliefors para parámetros estimados), Anderson-Darling, o simplemente evaluar la normalidad mediante métodos gráficos (Q-Q plot, histograma). Con muestras grandes, recuerda que el p-valor del test de normalidad se vuelve muy sensible a desviaciones triviales; en ese contexto, la pregunta relevante no es «¿son los datos exactamente normales?» sino «¿se alejan tanto de la normalidad que el procedimiento estadístico se ve comprometido?». Con los datos recogidos, realiza el contraste de normalidad con la calculadora de Shapiro-Wilk e interpreta el resultado junto con el Q-Q plot.
Referencias
- Razali, N. M. & Wah, Y. B. (2011). Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests. Journal of Statistical Modeling and Analytics, 2(1), 21–33.
- D'Agostino, R. B. (1990). A suggestion for using powerful and informative tests of normality. The American Statistician, 44(4), 316–321.
- Jarque, C. M. & Bera, A. K. (1987). A test for normality of observations and regression residuals. International Statistical Review, 55(2), 163–172.
- Shapiro, S. S. & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3–4), 591–611.
Preguntas frecuentes
- ¿Qué es la asimetría (γ₁) y la curtosis en exceso (γ₂)? La asimetría mide el grado de inclinación de la distribución (\(\gamma_1 = 0\) para distribuciones simétricas). La curtosis en exceso mide la pesadez de las colas respecto a la normal (\(\gamma_2 = 0\) para la normal, positivo para colas más pesadas). Cualquier desviación de estos valores cero indica no normalidad.
- ¿Por qué usar la aproximación Jarque–Bera? Porque ofrece una fórmula analítica de potencia basada en la distribución chi-cuadrado no central, lo que permite calcular el tamaño muestral sin simulación. La estimación es conservadora: SW generalmente requiere menos observaciones en la práctica.
- ¿Para qué tamaños muestrales es válido el test de Shapiro–Wilk? Para 3 ≤ n ≤ 5000. Para n < 8 la potencia es muy baja. Para n > 5000, el test es excesivamente sensible; se recomienda combinar con análisis gráfico (Q-Q plot).
- ¿Es esta calculadora válida para detectar curtosis sin asimetría? Sí. Con γ₁ = 0, el parámetro de no centralidad se reduce a λ(n) = n·γ₂²/24. Las distribuciones simétricas con curtosis elevada (t de Student, Laplace) requieren muestras mayores que las distribuciones asimétricas de distancia comparable a la normal.