Simulación estadística

Simulador de errores tipo I y tipo II

Visualiza de forma interactiva cómo se relacionan el error tipo I (α), el error tipo II (β) y la potencia estadística (1−β) en los contrastes de hipótesis. Ajusta el nivel de significación, el tamaño del efecto y el tamaño muestral para ver el impacto inmediato en las distribuciones.

Distribuciones bajo H₀ y H₁

Estadístico estandarizado Z. Las regiones coloreadas representan las probabilidades de cada tipo de error y la potencia del contraste.

Error tipo I (α)
0.050
Prob. rechazar H₀ siendo cierta
Error tipo II (β)
Prob. no rechazar H₀ siendo falsa
Potencia (1−β)
Prob. detectar el efecto real
No-centralidad δ
δ = d × √n
Ajusta los parámetros del panel izquierdo para ver el análisis de potencia.

¿Qué son los errores tipo I y tipo II?

Cuando realizamos un contraste de hipótesis tomamos una decisión binaria: rechazar la hipótesis nula H₀ o no rechazarla. Como cualquier decisión basada en información incompleta (una muestra, no la población entera), esta decisión puede ser incorrecta de dos formas distintas, y a estas dos formas las denominamos error tipo I y error tipo II.

El error tipo I ocurre cuando rechazamos H₀ siendo ésta verdadera en la población. La probabilidad de cometer este error es precisamente el nivel de significación α que fijamos antes de realizar el contraste. Si establecemos α = 0,05, estamos aceptando que existe un 5 % de probabilidad de declarar un efecto significativo cuando en realidad no existe ninguno. Este error también se denomina falso positivo o alarma falsa.

El error tipo II ocurre cuando no rechazamos H₀ cuando ésta es falsa — es decir, cuando existe un efecto real en la población pero nuestro test no consigue detectarlo. La probabilidad de cometer este error se denota con la letra β y también recibe el nombre de falso negativo. Su complementario, 1 − β, es la potencia estadística: la probabilidad de que el test detecte correctamente un efecto cuando este existe.

Una analogía útil es la del veredicto judicial. Imaginemos que H₀ es "el acusado es inocente". Un error tipo I equivale a condenar a un inocente (falso positivo), mientras que un error tipo II equivale a absolver a un culpable (falso negativo). En derecho penal la tradición es proteger especialmente contra el error tipo I ("mejor que escapen cien culpables que condenar a un inocente"), estableciendo un umbral de evidencia muy alto. En ciencia y en medicina, el equilibrio óptimo entre ambos errores depende de las consecuencias prácticas de cada tipo de equivocación.

La relación entre α y β es inseparable: manteniéndose todo lo demás constante, reducir α (ser más estricto) aumenta β (aumenta la probabilidad de no detectar efectos reales), y viceversa. Esta compensación es el dilema central del diseño de estudios estadísticos.

Decisión \ Realidad H₀ verdadera H₀ falsa (H₁ verdadera)
No rechazar H₀ Decisión correcta (1 − α) Error tipo II (β)
Rechazar H₀ Error tipo I (α) Decisión correcta: Potencia (1 − β)

La potencia estadística

La potencia estadística (1 − β) es la probabilidad de que un contraste detecte correctamente un efecto real. Es, en cierta medida, la "sensibilidad" del test: un test de alta potencia raramente pasa por alto los efectos que realmente existen en la población.

En el simulador, la potencia corresponde a la región verde bajo la curva de H₁ en la zona de rechazo. Cuanto mayor es el solapamiento entre las dos distribuciones (H₀ y H₁), menor es la potencia; cuanto más separadas estén, mayor es la potencia. Cuatro factores determinan la potencia:

  • Tamaño del efecto (d de Cohen): la diferencia real entre medias expresada en unidades de desviación típica. Cuanto mayor es el efecto, más fácil es detectarlo. Un efecto de d = 0,2 se considera pequeño, d = 0,5 mediano y d = 0,8 grande.
  • Tamaño de muestra (n): el factor más fácilmente manipulable en el diseño. Al aumentar n, el error estándar de la media disminuye, las distribuciones se comprimen y el solapamiento se reduce. El parámetro de no-centralidad δ = d × √n captura conjuntamente el efecto del tamaño del efecto y del tamaño muestral.
  • Nivel de significación (α): aumentar α desplaza la región de rechazo hacia la izquierda (en un contraste unilateral derecho), lo que captura más área de la curva H₁ y aumenta la potencia. A cambio, incrementa la tasa de falsos positivos.
  • Variabilidad de la medida (σ): una medida con menos ruido produce estadísticos más precisos. En el simulador, la desviación típica está estandarizada a σ = 1, pero en la práctica reducir la variabilidad experimental (mejor protocolo, mayor homogeneidad de las unidades de análisis) aumenta directamente la potencia.

En la investigación científica y en los ensayos clínicos es habitual fijar como objetivo una potencia mínima del 80 % (β ≤ 0,20). Esto significa que aceptamos hasta un 20 % de probabilidad de no detectar un efecto real cuando existe. Algunos ámbitos más exigentes, como los ensayos pivotales en farmacología, exigen potencias del 90 % o incluso superiores.

Una práctica frecuente y problemática es la del underpowered study: un estudio con potencia insuficiente que, si obtiene un resultado significativo, probablemente lo haga gracias al azar (efecto Ioannidis, 2005). Los estudios con baja potencia que sí detectan efectos tienden además a sobreestimar el tamaño del efecto, el denominado winner's curse o efecto de amplificación del ganador.

El dilema α vs β

La tensión entre el error tipo I y el error tipo II es uno de los problemas más fundamentales de la inferencia estadística. Con un tamaño de muestra fijo, no es posible minimizar ambos simultáneamente: cualquier cambio en α afecta inevitablemente a β en la dirección opuesta.

Para visualizarlo intuitivamente: el valor crítico zα es el punto que separa la región de no rechazo de la región de rechazo. Al reducir α pasamos de, por ejemplo, z0,05 = 1,645 a z0,01 = 2,326, desplazando el umbral de decisión hacia la derecha. Este desplazamiento hace que la región de rechazo capture menos área de la distribución bajo H₁, lo que aumenta β y reduce la potencia.

El único modo de reducir ambos errores simultáneamente es aumentar el tamaño de la muestra. Al crecer n, las dos distribuciones (bajo H₀ y bajo H₁) se vuelven más estrechas y separadas, reduciendo su solapamiento. Esto permite mantener α en un nivel bajo y a la vez conseguir una potencia alta.

Desde un punto de vista teórico, el lema de Neyman-Pearson (1933) establece que el contraste de cociente de verosimilitudes es el test más potente de nivel α para contrastar hipótesis simples. En otras palabras, dados α y n fijos, el contraste basado en la verosimilitud maximiza la potencia — no existe ningún otro test del mismo nivel que lo supere.

En la práctica, la elección de α depende del contexto: en la investigación básica se suele usar α = 0,05 por convención; en estudios exploratorios puede relajarse a α = 0,10 para no pasar por alto hallazgos potencialmente interesantes; en aplicaciones con alta consecuencia del error tipo I (diagnóstico médico, control de calidad de seguridad) se usan valores mucho más estrictos (α = 0,001 o menos). En cualquier caso, la elección debería ser explícita, justificada y establecida antes de recoger los datos.

Cuando las consecuencias económicas o humanas de ambos tipos de error son cuantificables, la teoría de la decisión estadística propone equilibrar ambos errores ponderando sus costes respectivos. Si el coste de un falso positivo es CI y el de un falso negativo es CII, el umbral de decisión óptimo depende del cociente CI/CII y de la prevalencia a priori de H₁, lo que conecta con el enfoque bayesiano de la inferencia.

Preguntas frecuentes

¿Por qué no usar α = 0,001 siempre para ser más seguros?

Usar un α muy pequeño protege contra los falsos positivos, pero al mismo tiempo incrementa drásticamente el error tipo II (β) para un tamaño muestral dado. Si el efecto real existe, un α muy estricto hace que el test sea tan exigente que raramente alcance la región de rechazo, generando muchos falsos negativos. Además, en investigación exploratoria, ser demasiado estricto puede llevar a descartar hipótesis verdaderas antes de que puedan investigarse en profundidad. La elección del nivel de significación debe equilibrar el coste de los dos tipos de error según el contexto del estudio.

¿Qué es el p-valor y cómo se relaciona con α?

El p-valor es la probabilidad de obtener un estadístico tan extremo o más que el observado, asumiendo que H₀ es cierta. No es la probabilidad de que H₀ sea verdadera (un error conceptual muy frecuente). La regla de decisión es: si p ≤ α, rechazamos H₀; si p > α, no rechazamos H₀. El nivel de significación α es el umbral prefijado con el que comparamos el p-valor. Por tanto, α controla directamente la tasa de error tipo I a largo plazo: si aplicamos la regla p ≤ α a muchos experimentos en los que H₀ es cierta, aproximadamente una fracción α de ellos producirá resultados significativos por azar.

¿Cómo aumentar la potencia sin cambiar α?

La forma más directa es aumentar el tamaño de la muestra. El parámetro de no-centralidad δ = d × √n crece con n, separando más las distribuciones bajo H₀ y H₁ y reduciendo su solapamiento. Otras estrategias incluyen: (1) aumentar el tamaño del efecto esperado, diseñando el estudio para maximizar la diferencia que queremos detectar (por ejemplo, usando dosis más altas en un ensayo clínico, si ello es ético y factible); (2) reducir la variabilidad de las mediciones mediante un protocolo más riguroso, mediciones más precisas o un diseño experimental más homogéneo; (3) usar diseños más eficientes, como el diseño apareado o en bloques, que eliminan variabilidad debida a covariables conocidas; y (4) realizar el análisis de potencia a priori para determinar el n necesario antes de comenzar el estudio.

¿Qué es el tamaño del efecto de Cohen?

El d de Cohen es la diferencia entre dos medias expresada en unidades de desviación típica. Formalmente, d = (μ₁ − μ₀) / σ, donde σ es la desviación típica común de las poblaciones. Esta estandarización permite comparar efectos entre estudios con distintas escalas de medida. Jacob Cohen (1988) propuso los umbrales d = 0,2 (efecto pequeño), d = 0,5 (efecto mediano) y d = 0,8 (efecto grande). Sin embargo, estos umbrales son orientativos y no deben aplicarse mecánicamente: un efecto de d = 0,2 puede ser muy relevante en medicina preventiva (si afecta a millones de personas) e irrelevante en psicología experimental. El tamaño del efecto debe interpretarse siempre en el contexto sustantivo de la investigación.

Herramientas relacionadas