Simulador interactivo
Selecciona el modo, ajusta los parámetros y haz clic en Simular.
¿Qué significa un intervalo de confianza al 95%?
La interpretación correcta de un intervalo de confianza al 95% es frecuentemente malentendida, incluso por investigadores con formación estadística. La afirmación correcta es:
"Si repitiéramos el experimento infinitas veces y construyéramos el intervalo de confianza en cada repetición, el 95% de esos intervalos contendría el verdadero parámetro."
Esta es la afirmación que hace el simulador visible: cada fila del gráfico es una repetición del experimento. Las barras azules son los intervalos que capturaron el parámetro; las rojas, los que no. Si el procedimiento es correcto, aproximadamente el 5% de los intervalos serán rojos.
Lo que NO significa: "hay un 95% de probabilidad de que el parámetro esté en este intervalo concreto". Una vez que has calculado el intervalo con tus datos, el parámetro o está dentro o no está. No hay probabilidad en ese sentido clásico: el parámetro es un valor fijo (aunque desconocido), y el intervalo calculado también es fijo. La probabilidad del 95% se refiere al procedimiento de construcción, no al intervalo individual.
Esta distinción es fundamental porque tiene consecuencias prácticas: no puedes decir "estoy 95% seguro de que μ está entre 47 y 53". Lo que sí puedes decir es "el método que usé para calcular este intervalo produce intervalos que cubren el verdadero μ el 95% de las veces en repeticiones del experimento".
La interpretación bayesiana —"la probabilidad de que el parámetro esté en este rango es del 95%"— es válida para los intervalos de credibilidad bayesianos, que requieren especificar una distribución a priori y son conceptualmente distintos.
Cobertura nominal vs cobertura real
El nivel nominal es el valor de confianza que especificamos al construir el IC (90%, 95%, 99%). La cobertura real (o empírica) es la fracción de intervalos que efectivamente cubren el parámetro verdadero en una larga serie de repeticiones.
Para el IC de la media con σ conocida, la cobertura real coincide exactamente con la nominal para cualquier tamaño muestral, porque la distribución de la media muestral es exactamente normal (si la población también lo es) o asintóticamente normal por el TCL.
Para proporciones, la situación es más complicada. El parámetro p es continuo, pero la variable binomial X ~ Bin(n, p) es discreta, y esta discretización causa que la cobertura real fluctúe alrededor del nivel nominal:
- Intervalo de Wald: usa directamente la aproximación normal \(\hat{p} \pm z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\). Funciona bien para n grande y p alejado de 0 y 1, pero su cobertura puede ser notablemente inferior al nivel nominal cuando n es pequeño o p está cerca de los extremos.
- Intervalo de Wilson: se obtiene invirtiendo el test de score de Pearson. Tiende a tener cobertura real más próxima al nivel nominal, especialmente en los extremos, aunque puede ser ligeramente conservador (cobertura superior al nominal) en algunos casos.
Puedes observar este fenómeno directamente con el simulador: selecciona el modo Proporción, fija p = 0.05 y n = 20, y compara la cobertura empírica de Wald vs Wilson.
¿Cómo afecta el tamaño muestral?
El tamaño muestral n tiene un efecto directo y claro sobre la anchura del intervalo de confianza. Para el IC de la media con σ conocida:
\[ \text{Anchura} = 2 \times z_{\alpha/2} \times \dfrac{\sigma}{\sqrt{n}} \]
La anchura es proporcional a \(1/\sqrt{n}\): si cuadruplicamos n, la anchura se reduce a la mitad. Para reducir la anchura a un tercio, necesitamos multiplicar n por 9.
Sin embargo, aumentar n no cambia la cobertura: un intervalo del 95% sigue siendo del 95% independientemente de si n = 10 o n = 1000. Lo que cambia es cuán estrecho es ese intervalo, es decir, la precisión de la estimación. Intervalos más estrechos son más útiles en la práctica, aunque ambos tienen la misma garantía de cobertura nominal.
Puedes verificar esto en el simulador: mantén fijo el nivel de confianza al 95% y el número de intervalos en 100, y varía n entre 5 y 100. Observarás que:
- La fracción de intervalos azules se mantiene aproximadamente en 95% para todos los valores de n.
- Los intervalos se vuelven progresivamente más estrechos al aumentar n.
- Con n pequeño, hay más variabilidad en la posición de los extremos del IC.
Preguntas frecuentes
- Si el IC no contiene el verdadero valor, ¿está mal calculado? No. Un IC del 95% está diseñado para no cubrir el parámetro aproximadamente el 5% de las veces. Ver intervalos rojos en la simulación es exactamente lo esperado; no indica ningún error de cálculo. Si el 95% de los intervalos son azules, el procedimiento funciona correctamente.
- ¿Por qué el método Wilson da mejor cobertura que Wald? El intervalo de Wald aplica la aproximación normal directamente a \(\hat{p}\), lo que se deteriora cuando \(\hat{p}\) está cerca de 0 o 1 o cuando n es pequeño (la distribución de \(\hat{p}\) no es suficientemente simétrica). El intervalo de Wilson obtiene sus límites invirtiendo el test de score de Pearson, que tiene en cuenta la curvatura de la distribución binomial. Esto produce una cobertura empírica mucho más próxima al nivel nominal en toda la escala de p.
- ¿Puedo interpretar el IC bayesianamente? Solo si usas un intervalo de credibilidad bayesiano, que tiene una construcción completamente distinta. El IC frecuentista no asigna probabilidades al parámetro (que se trata como fijo pero desconocido). El intervalo de credibilidad bayesiano sí expresa P(θ ∈ IC | datos) = 1 − α, pero requiere especificar una distribución a priori sobre θ. Ambas herramientas son válidas en su contexto, pero no deben confundirse.
- ¿Cuántos intervalos necesito simular para ver la cobertura converger? Con 20 intervalos hay mucha variabilidad: la cobertura empírica puede oscilar entre 80% y 100% incluso si el procedimiento es correcto. Con 100 intervalos, el error estándar de la proporción es ≈ √(0.95 × 0.05 / 100) ≈ 2.2%, por lo que la cobertura empírica típicamente quedará entre 91% y 99%. Con 200 intervalos, la variabilidad se reduce a ≈ 1.5%.
- ¿El simulador usa una distribución normal exacta para la media? Sí: en el modo Media (σ conocida) cada observación se genera de una N(μ, σ) usando el método Box-Muller. La media muestral tiene distribución exactamente N(μ, σ/√n) para cualquier n, por lo que la cobertura empírica debe coincidir con la nominal incluso para n pequeño.