¿Qué tamaños muestrales son habituales para Shapiro–Wilk?

Se usa mucho en muestras pequeñas y medianas, aunque también puede aplicarse en tamaños mayores según software.

¿Un p-valor alto demuestra normalidad?

No. Solo indica que no hay evidencia suficiente para rechazar normalidad con esa muestra y ese nivel de significación.

¿Debo usar solo el test?

No. La práctica recomendada es combinar test formal con gráfico Q–Q e histograma.

Calculadora de Shapiro–Wilk (normalidad)

Calculadora

Introduce los datos muestrales y simula la distribución nula de $W$ por Monte Carlo para obtener un p-valor empírico.

Datos de la muestra (separados por comas o espacios)

Iteraciones Monte Carlo (B)

Nivel de significación (α)

Semilla aleatoria (opcional)

Resultado pendiente…

Notas de interpretación pendientes…

Cómo leer el gráfico (paso a paso): 1) La simulación Monte Carlo genera muchas muestras normales bajo $H_0$ del mismo tamaño que tu muestra y calcula un $W$ en cada una. 2) Las barras azules cuentan cuántas simulaciones cayeron en cada rango de $W$: por eso su eje Y es frecuencia y su eje X es valor de $W$. 3) El marcador rojo señala tu $W$ observado y el verde el $W$ crítico para $\alpha$. Solo importa su posición horizontal (X); su altura vertical se fija artificialmente para que se vean sobre las barras.

Explicación

El test de Shapiro–Wilk es una prueba estadística diseñada para evaluar si una muestra de datos puede considerarse proveniente de una distribución normal. Es uno de los tests de normalidad más potentes y recomendados para tamaños muestrales pequeños y moderados.

El test compara:

Los datos ordenados de tu muestra
l os valores esperados de una muestra normal ordenada

Si tus datos “se alinean” bien con lo que se esperaría de una muestra normal, el estadístico será grande (cercano a 1). Si se desvían de esa alineación, el estadístico será pequeño.

La hipótesis nula plantea que los datos siguen una normal; la alternativa plantea que no siguen una normal. El estadístico del test se denota por $W$, y toma valores entre 0 y 1: cuanto más cerca de 1, mayor compatibilidad con normalidad.

El estadístico de Shapiro–Wilk se construye combinando los datos ordenados $x_{(i)}$ con coeficientes $a_i$ que dependen de $n$:

$W = \dfrac{\left(\sum_{i=1}^{m} a_i(x_{(n+1-i)}-x_{(i)})\right)^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}$ donde:

$x_{(i)}$ son los datos ordenados,
$a_i$ son coeficientes calculados a partir de los cuantiles normales teóricos,
el denominador es la variabilidad total de la muestra.

Simulación de Monte Carlo para el p-valor

La distribución exacta del estadístico $W$ bajo $H_0$ no tiene una forma cerrada, por lo que el p-valor se obtiene mediante simulación de Monte Carlo. El procedimiento es el siguiente:

Se genera una muestra aleatoria de tamaño $n$ a partir de $N(0,1)$. Puede usarse la normal estándar porque $W$ es invariante a cambios de media y escala: solo depende de la forma de los datos ordenados, no de su nivel o dispersión.
Se calcula el estadístico $W$ en esa muestra simulada.
Se repite $B$ veces (por ejemplo, $B = 5000$). Con ello se obtiene una distribución empírica de $W$ bajo $H_0$: es decir, cómo se comportaría $W$ si los datos realmente fueran normales.
El p-valor empírico se calcula como la fracción de simulaciones con $W_{\text{sim}} \leq W_{\text{obs}}$: \[p\text{-valor} = \dfrac{\#\{W_{\text{sim}} \leq W_{\text{obs}}\}}{B}\] Un $W$ observado muy pequeño (lejos de 1) caerá en la cola izquierda de la distribución simulada, dando un p-valor pequeño y llevando a rechazar la normalidad.

El histograma del gráfico muestra precisamente esa distribución empírica: las barras acumulan los $B$ valores simulados de $W$. El marcador rojo señala el $W$ observado en tu muestra; si cae en la cola izquierda (zona de valores bajos), hay evidencia contra la normalidad. El marcador verde indica el valor crítico $W_\alpha$: el percentil $\alpha$ de la distribución simulada, que es el umbral por debajo del cual se rechazaría $H_0$.

La semilla aleatoria permite reproducir exactamente el mismo resultado: fijar la misma semilla garantiza que las $B$ muestras simuladas sean idénticas en distintas ejecuciones, lo que facilita compartir y verificar resultados. Con valores grandes de $B$ ($\geq 5000$) la variabilidad del p-valor empírico es pequeña y la estimación es fiable.

La decisión formal se realiza con el p-valor: si es menor que el nivel de significación $\alpha$, se rechaza la normalidad.

Hipótesis y estadístico

$H_0$: la muestra procede de una distribución normal

$H_1$: la muestra no procede de una distribución normal

$W = \dfrac{\left(\sum_{i=1}^{m} a_i(x_{(n+1-i)}-x_{(i)})\right)^2}{\sum_{i=1}^{n}(x_i-\bar{x})^2}$

Contraste rápido

En Shapiro–Wilk, el p-valor es la base de la decisión estadística. El estadístico $W$ resume cuánto se desvían los datos ordenados respecto al patrón esperado bajo normalidad.

$\text{Si } p < \alpha\Rightarrow$ rechazar $H_0$

$\text{Si } p \ge \alpha\Rightarrow$ no rechazar $H_0$

Un resultado no significativo no demuestra normalidad perfecta: indica que, con la evidencia disponible en esa muestra, no se detectan desviaciones claras. Conviene complementar con gráfico Q–Q e histograma.

Ejemplo resuelto

En un proceso de control de calidad se miden las dimensiones (en mm) de 10 piezas fabricadas: 23,1; 24,5; 22,8; 25,2; 24,1; 23,7; 24,9; 23,5; 25,0; 24,3. Se desea verificar, con $\alpha = 0{,}05$, si estos datos son compatibles con una distribución normal.

Paso 1 – Ordenar los datos, calcular la media y la suma de cuadrados

Datos ordenados: 22,8; 23,1; 23,5; 23,7; 24,1; 24,3; 24,5; 24,9; 25,0; 25,2.

$\bar{x} = \dfrac{22{,}8 + 23{,}1 + \cdots + 25{,}2}{10} = \dfrac{241{,}1}{10} = 24{,}11 \text{ mm}$

$\displaystyle SS = \sum_{i=1}^{10}(x_i - \bar{x})^2 = (22{,}8-24{,}11)^2 + \cdots + (25{,}2-24{,}11)^2 = 6{,}069$

Paso 2 – Calcular los coeficientes $a_i$

La calculadora usa el algoritmo de Royston (AS R94, 1992), que aplica dos correcciones polinómicas a los cuantiles normales esperados para obtener los coeficientes exactos de Shapiro–Wilk. Para $n = 10$ los coeficientes resultantes son:

Par $i$	1	2	3	4	5
$a_i$ (Royston)	0,5739	0,3291	0,2141	0,1224	0,0399

Estos coeficientes coinciden con los valores tabulados de Shapiro & Wilk (1965) y con los que calcula R.

Paso 3 – Calcular el numerador

Cada $a_i$ pondera la diferencia entre el $i$-ésimo dato por arriba y por abajo de la muestra ordenada:

$b = \sum_{i=1}^{5} a_i\bigl(x_{(11-i)} - x_{(i)}\bigr)$

$b = 0{,}5739\cdot(25{,}2-22{,}8) + 0{,}3291\cdot(25{,}0-23{,}1) + 0{,}2141\cdot(24{,}9-23{,}5) + 0{,}1224\cdot(24{,}5-23{,}7) + 0{,}0399\cdot(24{,}3-24{,}1)$

$b = 1{,}3774 + 0{,}6253 + 0{,}2997 + 0{,}0979 + 0{,}0080 = 2{,}4083$

Paso 4 – Estadístico $W$

$W = \dfrac{b^2}{SS} = \dfrac{2{,}4083^2}{6{,}069} = \dfrac{5{,}800}{6{,}069} \approx 0{,}9557$

Este valor coincide con el que devuelve R: shapiro.test(...)$statistic = 0.9557.

Paso 5 – p-valor mediante simulación Monte Carlo

La calculadora genera $B = 5000$ muestras normales $N(0,1)$ de tamaño $n = 10$, calcula $W$ en cada una y estima el p-valor como la proporción de simulaciones con $W \leq W_{\text{obs}}$:

$p\text{-valor} = \dfrac{\#\{W_{\text{sim}} \leq 0{,}9557\}}{5000} \approx 0{,}73$

R usa la aproximación analítica de Royston y reporta $p = 0{,}7355$; la simulación Monte Carlo converge al mismo resultado con $B$ grande. Puedes reproducirlo introduciendo los datos en la calculadora con $B = 5000$ y semilla 12345.

Conclusión

Dado que $p \approx 0{,}73 \gg 0{,}05 = \alpha$, no se rechaza $H_0$. Con un nivel de significación del 5 %, no hay evidencia estadística de que las dimensiones de las piezas no sigan una distribución normal. Este resultado permite aplicar con confianza herramientas paramétricas como gráficos de control $\bar{x}\text{-}R$ en etapas posteriores del análisis de calidad.

Cómo interpretar el resultado

Rechazar $H_0$ (p-valor < $\alpha$) indica que hay evidencia estadística de que los datos no provienen de una distribución normal. Sin embargo, la causa puede ser diversa: colas más pesadas de lo normal (leptocurtosis), asimetría, o simplemente la presencia de valores atípicos. Para identificar el tipo de desviación, complementa con el gráfico Q-Q (cuantil-cuantil): si los puntos se curvan hacia arriba en la cola derecha hay asimetría positiva; si las colas se separan de la línea de referencia, hay exceso de curtosis.

No rechazar $H_0$ (p-valor ≥ $\alpha$) no demuestra normalidad; solo indica que los datos son compatibles con una distribución normal al nivel elegido. Con muestras pequeñas ($n < 20$), el test tiene muy poca potencia y casi nunca rechazará $H_0$, incluso cuando los datos se alejan claramente de la normal. Con muestras grandes ($n > 200$), en cambio, desviaciones triviales pueden resultar altamente significativas sin impactar en la validez de los métodos paramétricos que asumen normalidad. En la práctica, lo relevante es si la desviación es suficientemente grave para invalidar el test que se pretende aplicar.

El estadístico W de Shapiro-Wilk varía entre 0 y 1: valores próximos a 1 indican que la muestra es consistente con la normalidad; valores cercanos a 0 señalan una desviación severa. A diferencia de los tests basados en chi-cuadrado o KS, Shapiro-Wilk tiene mayor potencia para detectar desviaciones en muestras pequeñas y es el test de normalidad recomendado para $n \leq 50$. La herramienta muestra el valor W, el p-valor y, en la visualización, el Q-Q plot con la banda de confianza; si los puntos quedan dentro de la banda, la desviación respecto a la normalidad es compatible con el azar al nivel elegido.

Preguntas frecuentes

¿Qué tamaños muestrales son habituales para Shapiro–Wilk? Se usa mucho en muestras pequeñas y medianas, aunque también puede aplicarse en tamaños mayores según software.
¿Un p-valor alto demuestra normalidad? No. Solo indica que no hay evidencia suficiente para rechazar normalidad con esa muestra y ese nivel de significación.
¿Debo usar solo el test? No. La práctica recomendada es combinar test formal con gráfico Q–Q e histograma.

Referencias:

Shapiro, S. S. & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3–4), 591–611. — Paper original del test y de los coeficientes $a_i$ tabulados.
Royston, J. P. (1992). Approximating the Shapiro–Wilk W-test for non-normality. Statistics and Computing, 2, 117–119. — Algoritmo de aproximación polinómica de los coeficientes $a_i$ implementado en esta calculadora.
Royston, J. P. (1995). Remark AS R94: A remark on Algorithm AS 181: The W-test for normality. Applied Statistics, 44(4), 547–551. — Versión revisada del algoritmo (AS R94), base del cálculo de $W$ en R y en esta herramienta.
Wichura, M. J. (1988). Algorithm AS 241: The percentage points of the normal distribution. Applied Statistics, 37(3), 477–484. — Fuente de los coeficientes de la aproximación racional de $\Phi^{-1}(p)$ utilizada en el código.