Calculadoras de contrastes de hipótesis

Todos los contrastes disponibles

Página pilar del clúster de contrastes de hipótesis: concentra la intención amplia de pruebas estadísticas y enlaza cada test específico con anchors diferenciados.

Medias y comparación de grupos

Proporciones, A/B y tablas 2×2

Varianzas, correlación y asociación

Bondad de ajuste y normalidad

Potencia estadística

¿Qué es un contraste de hipótesis?

Un contraste de hipótesis (también llamado prueba de hipótesis o test estadístico) es un procedimiento formal que permite decidir, a partir de datos muestrales, si la evidencia empírica es suficiente para rechazar una afirmación de partida sobre la población. La idea central es sencilla: formulamos dos hipótesis en conflicto y usamos los datos para ver cuál de las dos es más compatible con la realidad.

Este tipo de razonamiento está presente en multitud de ámbitos: medicina (¿es este fármaco más eficaz que el placebo?), ingeniería (¿ha mejorado el nuevo proceso de producción?), marketing (¿cuál de las dos versiones de la página convierte más?) o ciencias sociales (¿difieren las puntuaciones entre dos grupos?). En todos los casos, el esquema lógico es el mismo.

La lógica del contraste: reducción al absurdo estadística

El mecanismo funciona de forma análoga a una demostración por contradicción. Se parte de una hipótesis de referencia —la hipótesis nula (H₀)— que representa el escenario que se quiere cuestionar: "no hay efecto", "no hay diferencia", "el parámetro vale exactamente μ₀". A continuación se calculan los datos que cabría esperar si H₀ fuese verdad. Si los datos observados son muy improbables bajo ese escenario, se concluye que H₀ es inverosímil y se rechaza a favor de la hipótesis alternativa (H₁).

Es crucial entender que un contraste de hipótesis nunca "demuestra" nada con certeza absoluta. Lo que hace es cuantificar la compatibilidad entre los datos y H₀, y a partir de un umbral de probabilidad (el nivel de significación α) tomar una decisión operativa.

Las hipótesis: nula y alternativa

Hipótesis nula (H₀)

La hipótesis nula es el punto de partida conservador. Suele afirmar que no existe efecto, que las medias son iguales o que un parámetro toma un valor concreto. Se redacta siempre con igualdad (=, ≤ o ≥ según el tipo de contraste). Ejemplos:

H₀: μ = 50 (la media poblacional es 50)
H₀: μ₁ = μ₂ (las dos medias son iguales)
H₀: p = 0,30 (la proporción es del 30 %)
H₀: σ₁² = σ₂² (las varianzas son iguales)

Hipótesis alternativa (H₁ o Hₐ)

La hipótesis alternativa expresa lo que se sospecha o quiere demostrar: que existe un efecto, una diferencia o un cambio de dirección. Se formula en tres variantes según el tipo de contraste:

Bilateral (dos colas): H₁: μ ≠ μ₀ — se rechaza tanto si el estadístico es muy alto como si es muy bajo.
Unilateral derecho (cola derecha): H₁: μ > μ₀ — solo se rechaza si el estadístico cae en la cola superior.
Unilateral izquierdo (cola izquierda): H₁: μ < μ₀ — solo se rechaza si el estadístico cae en la cola inferior.

La elección entre bilateral y unilateral debe tomarse antes de ver los datos, basándose en la pregunta de investigación. Elegir el tipo de contraste después de ver los datos infla artificialmente la tasa de falsos positivos.

El estadístico de contraste y el p-valor

Estadístico de contraste

El estadístico de contraste es un número calculado a partir de la muestra que resume la evidencia frente a H₀. Su distribución exacta bajo H₀ es conocida matemáticamente, lo que permite calcular probabilidades. Los más habituales son:

z: cuando se conoce la varianza poblacional o el tamaño de muestra es grande (≥ 30 aproximadamente). Sigue una distribución normal estándar N(0, 1) bajo H₀.
t de Student: cuando se desconoce la varianza poblacional y se estima con la muestra. Sigue una t con n − 1 grados de libertad.
F de Snedecor: en comparaciones de varianzas o en ANOVA, donde se comparan varianzas entre grupos.
χ² (chi-cuadrado): en tablas de contingencia y en contrastes de bondad de ajuste.

El p-valor

El p-valor es la probabilidad de obtener un estadístico tan extremo o más extremo que el observado, asumiendo que H₀ es verdadera. Formalmente:

Contraste bilateral: p = P(|T| ≥ |t_obs| | H₀)
Cola derecha: p = P(T ≥ t_obs | H₀)
Cola izquierda: p = P(T ≤ t_obs | H₀)

Un p-valor pequeño indica que los datos observados serían muy poco probables si H₀ fuese cierta, por lo que hay evidencia en contra de H₀. La decisión se toma comparando el p-valor con el nivel de significación α fijado de antemano:

Si p-valor < α → se rechaza H₀.
Si p-valor ≥ α → no se rechaza H₀ (no se "acepta", simplemente no hay evidencia suficiente para rechazarla).

Qué no es el p-valor

El p-valor es uno de los conceptos más malinterpretados en estadística. Es importante tener claro lo que no significa:

No es la probabilidad de que H₀ sea verdadera.
No es la probabilidad de haber cometido un error.
No indica la magnitud ni la importancia práctica del efecto.
Un p-valor de 0,049 no es "casi significativo"; 0,051 no es "casi no significativo". El umbral α es una convención operativa, no una frontera del conocimiento.

Errores tipo I y tipo II

Al tomar una decisión estadística siempre existe la posibilidad de equivocarse. Hay dos tipos de error distintos, y existe una tensión fundamental entre ellos:

Error tipo I (α) — Falso positivo

Rechazar H₀ cuando en realidad es verdadera. Es el error de "ver un efecto que no existe". La probabilidad de cometerlo es exactamente α (el nivel de significación elegido). Si fijamos α = 0,05, en promedio el 5 % de los contrastes realizados cuando H₀ es cierta producirán un falso positivo.

Error tipo II (β) — Falso negativo

No rechazar H₀ cuando en realidad es falsa. Es el error de "no ver un efecto que sí existe". Su probabilidad es β, y depende del tamaño de muestra, la magnitud del efecto real y el nivel α. Se controla mediante el diseño del estudio.

Potencia estadística (1 − β)

La probabilidad de detectar un efecto real cuando efectivamente existe. Un estudio con potencia del 80 % fallará en detectar el efecto el 20 % de las veces aunque ese efecto sea real. Lo habitual es diseñar estudios con potencia ≥ 0,80.

La relación entre α y β es inversa si todo lo demás permanece constante: reducir α (ser más exigente para rechazar H₀) aumenta β (hace más difícil detectar efectos reales). La única forma de reducir ambos a la vez es aumentar el tamaño muestral.

	H₀ verdadera	H₀ falsa
No rechazar H₀	Decisión correcta (prob. = 1 − α)	Error tipo II (prob. = β)
Rechazar H₀	Error tipo I (prob. = α)	Decisión correcta · Potencia (1 − β)

Potencia estadística: qué es y de qué depende

La potencia responde a la pregunta: "si de verdad existe el efecto que sospecho, ¿qué probabilidad tiene mi estudio de detectarlo?". Es uno de los criterios más importantes en el diseño de estudios, aunque en la práctica suele quedar en un segundo plano.

La potencia estadística (1 − β) depende de cuatro factores que interactúan entre sí:

Tamaño muestral (n): es el factor de mayor impacto práctico. A mayor n, el error estándar se reduce, los intervalos de confianza se estrechan y la distribución del estadístico bajo H₁ se aleja más de la distribución bajo H₀, facilitando la detección.
Tamaño del efecto (d, f, w…): cuanto mayor sea la diferencia real entre el parámetro bajo H₁ y el valor bajo H₀, más fácil será detectarla. Si el efecto real es muy pequeño, se necesitará una muestra mucho mayor para tener suficiente potencia.
Variabilidad de los datos (σ): una mayor dispersión "enmascara" la señal. Con datos más homogéneos, la misma diferencia es más fácil de detectar.
Nivel de significación (α): aumentar α (por ejemplo, pasar de 0,01 a 0,05) amplía la región de rechazo y aumenta la potencia, pero a costa de admitir más falsos positivos.

El análisis de potencia a priori —realizado antes de recoger datos— permite determinar el tamaño muestral necesario para alcanzar una potencia objetivo (habitualmente 0,80 o 0,90) dado un tamaño de efecto mínimo de interés. Realizarlo es una práctica imprescindible en estudios científicos rigurosos.

Tamaño del efecto: más allá del p-valor

Significativo estadísticamente no equivale a importante en la práctica. Esta confusión es una de las más graves y frecuentes en el uso aplicado de la estadística.

Con una muestra muy grande, una diferencia de 0,1 puntos entre dos grupos puede producir p < 0,001, aunque carezca de cualquier relevancia práctica. Al contrario, con muestras pequeñas, una diferencia clínicamente relevante puede no alcanzar significación estadística.

Los índices de tamaño del efecto cuantifican la magnitud de la diferencia en unidades estandarizadas, independientemente del tamaño muestral:

d de Cohen (diferencia de dos medias): d = (μ₁ − μ₂) / σ_agrupada. Valores orientativos: pequeño ≈ 0,2; mediano ≈ 0,5; grande ≈ 0,8.
r de Pearson (correlación o ANOVA): r = 0,1 (pequeño), 0,3 (mediano), 0,5 (grande).
η² y η²_parcial (ANOVA): proporción de varianza explicada por el factor.
w de Cohen (chi-cuadrado): w = 0,1 (pequeño), 0,3 (mediano), 0,5 (grande).
Riesgo relativo, odds ratio (proporciones): indican cuántas veces más probable es el evento en un grupo respecto al otro.

La recomendación de práctica estadística actual es reportar siempre, junto al p-valor:

La estimación puntual del efecto (diferencia de medias, diferencia de proporciones, odds ratio…).
El intervalo de confianza del efecto (habitualmente al 95 %).
Un índice de tamaño del efecto estandarizado.
Una valoración de la relevancia práctica en el contexto del problema.

Pasos para realizar un contraste de hipótesis

Independientemente del tipo de contraste, el procedimiento sigue siempre el mismo esquema:

Plantear las hipótesis: formular H₀ y H₁ en función de la pregunta de investigación, y decidir si el contraste es bilateral o unilateral.
Fijar el nivel de significación (α): habitualmente 0,05, aunque en contextos más exigentes se usa 0,01. Debe fijarse antes de recoger datos.
Verificar los supuestos del test: normalidad, independencia de las observaciones, homogeneidad de varianzas, tamaño de frecuencias esperadas, etc.
Elegir el estadístico apropiado: z, t, F, χ²… según el tipo de variable, número de grupos y supuestos verificados.
Calcular el estadístico y el p-valor a partir de los datos muestrales.
Tomar la decisión: si p-valor < α, rechazar H₀; si p-valor ≥ α, no rechazar H₀.
Calcular el tamaño del efecto e interpretar los resultados en contexto.
Reportar los resultados: incluir el estadístico, los grados de libertad, el p-valor, el efecto estimado y el intervalo de confianza.

Supuestos habituales y cómo verificarlos

Cada contraste descansa sobre una serie de supuestos que deben cumplirse (al menos aproximadamente) para que la inferencia sea válida. Ignorar los supuestos es una de las fuentes más comunes de resultados engañosos.

Normalidad

Los tests paramétricos (t, z, F) suponen que los datos proceden de una distribución normal o, por el Teorema Central del Límite, que el tamaño muestral es suficientemente grande para que el estadístico converja a la distribución teórica. Para n ≥ 30 el TCL suele ser suficiente; con muestras pequeñas conviene verificar normalidad con el test de Shapiro-Wilk o con el test de Kolmogorov-Smirnov.

Independencia de las observaciones

Las observaciones deben ser independientes entre sí. La violación más frecuente ocurre cuando hay medidas repetidas en el mismo sujeto (antes/después) o cuando los datos están agrupados por conglomerados. En estos casos se debe usar un test para muestras apareadas o modelos mixtos.

Homogeneidad de varianzas (homocedasticidad)

En el test t de dos muestras independientes y en ANOVA se asume que las varianzas de los grupos son iguales. Puede verificarse con el test de Levene. Si no se cumple, existen variantes robustas como el test de Welch para dos medias.

Frecuencias mínimas esperadas (chi-cuadrado)

En las tablas de contingencia, cada celda debe tener una frecuencia esperada de al menos 5 (algunas fuentes dicen 1 si no más del 20 % de celdas están por debajo de 5). Si no se cumple, se debe usar el test exacto de Fisher.

Qué contraste estadístico usar: guía de selección

La elección del contraste depende de tres factores principales: el tipo de variable, el número de grupos o muestras, y si las muestras son independientes o apareadas.

Variable numérica — 1 grupo

Contraste de una media: compara la media muestral con un valor hipotético μ₀. Se usa z si se conoce σ, o t si σ es desconocida.

Variable numérica — 2 grupos independientes

Contraste de dos medias: compara las medias de dos grupos distintos. Se usa t de Welch (varianzas distintas) o t de Student agrupada (varianzas iguales).

Variable numérica — 2 grupos apareados

Contraste de medias apareadas: cuando cada observación de un grupo está emparejada con una del otro (antes/después, gemelos…). Se calcula sobre las diferencias d̄.

Variable numérica — ≥ 3 grupos

Calculadora de ANOVA de un factor: contrasta si al menos una media difiere del resto. Si ANOVA es significativo, se realizan comparaciones múltiples post hoc.

Variable categórica — 1 grupo

Contraste de una proporción: compara la proporción muestral con un valor hipotético p₀. Se usa z si n es grande, o test binomial exacto si n es pequeño.

Variable categórica — 2 grupos independientes

Contraste de dos proporciones: contrasta si las proporciones de dos grupos son iguales. Alternativa: Fisher para muestras pequeñas.

Tabla de contingencia (independencia)

Calculadora de chi-cuadrado de independencia: contrasta si dos variables categóricas son independientes. Para tablas 2×2 con frecuencias bajas, usar test de Fisher.

Bondad de ajuste

Calculadora de chi-cuadrado de bondad de ajuste: contrasta si una distribución empírica se ajusta a una distribución teórica. Para distribuciones continuas, Kolmogorov-Smirnov.

Comparación de varianzas

Contraste de varianzas: usa el estadístico F para comparar dos varianzas poblacionales. Es sensible a la no normalidad.

Verificación de normalidad

Shapiro-Wilk (preferido para n < 50) o Kolmogorov-Smirnov (válido para muestras grandes). Son tests previos, no el contraste principal.

Ejemplo resuelto 1: contraste de una media (test t)

Problema: Un fabricante afirma que el peso medio de sus paquetes es 500 g. Se toma una muestra de n = 25 paquetes y se obtiene una media muestral de x̄ = 493 g y una desviación típica muestral de s = 15 g. ¿Hay evidencia suficiente para concluir que el peso medio difiere de 500 g con α = 0,05?

Paso 1 — Hipótesis:
H₀: μ = 500 g
H₁: μ ≠ 500 g (contraste bilateral)

Paso 2 — Nivel de significación: α = 0,05.

Paso 3 — Verificar supuestos: muestra aleatoria, σ desconocida → test t con n − 1 = 24 grados de libertad.

Paso 4 — Estadístico de contraste:
t = (x̄ − μ₀) / (s / √n) = (493 − 500) / (15 / √25) = −7 / 3 = −2,333

Paso 5 — P-valor: para t = −2,333 con 24 grados de libertad y contraste bilateral, p-valor ≈ 0,028.

Paso 6 — Decisión: p-valor (0,028) < α (0,05) → se rechaza H₀. Hay evidencia estadística suficiente para concluir que el peso medio difiere de 500 g.

Paso 7 — Tamaño del efecto: d de Cohen = (x̄ − μ₀) / s = 7 / 15 ≈ 0,47 (efecto medio-moderado). El intervalo de confianza al 95 % para μ sería aproximadamente (486,8 g ; 499,2 g).

Puedes verificar este resultado con la calculadora de contraste de una media.

Ejemplo resuelto 2: contraste de dos proporciones

Problema: Una empresa lanza una nueva página de aterrizaje (variante B) frente a la actual (variante A). En la variante A, 420 de 10.000 visitantes realizan una compra. En la variante B, 480 de 10.000 visitantes compran. ¿Hay evidencia de que la tasa de conversión es diferente entre las dos variantes? α = 0,05.

Hipótesis:
H₀: p_A = p_B (las tasas de conversión son iguales)
H₁: p_A ≠ p_B (bilateral)

Proporciones muestrales:
p̂_A = 420 / 10.000 = 0,042 (4,2 %)
p̂_B = 480 / 10.000 = 0,048 (4,8 %)

Proporción agrupada bajo H₀:
p̂ = (420 + 480) / (10.000 + 10.000) = 900 / 20.000 = 0,045

Estadístico z:
z = (p̂_A − p̂_B) / √[p̂(1 − p̂)(1/n_A + 1/n_B)]
z = (0,042 − 0,048) / √[0,045 × 0,955 × (1/10.000 + 1/10.000)]
z = −0,006 / √[0,045 × 0,955 × 0,0002]
z = −0,006 / √[0,00000859] ≈ −0,006 / 0,002931 ≈ −2,047

P-valor (bilateral): p ≈ 0,041.

Decisión: p (0,041) < α (0,05) → se rechaza H₀. La diferencia de 0,6 puntos porcentuales es estadísticamente significativa. Sin embargo, el tamaño del efecto es muy pequeño (w ≈ 0,02), y conviene valorar si un incremento relativo del ~14 % en conversión tiene relevancia económica real antes de tomar decisiones.

Prueba con la calculadora de dos proporciones.

Ejemplo resuelto 3: chi-cuadrado de independencia

Problema: Se quiere saber si el género está asociado a la preferencia por tres tipos de música (pop, rock, electrónica). Se encuesta a 300 personas y se obtiene la siguiente tabla:

	Pop	Rock	Electrónica	Total
Hombres	50	70	30	150
Mujeres	80	40	30	150
Total	130	110	60	300

Hipótesis:
H₀: el género y la preferencia musical son independientes
H₁: existe asociación entre género y preferencia musical

Estadístico χ² = Σ [(O − E)² / E], donde E = (total fila × total columna) / n.

Calculando las frecuencias esperadas y el estadístico: χ² ≈ 15,10 con (2 − 1)(3 − 1) = 2 grados de libertad.

P-valor ≈ 0,0005 < 0,05 → se rechaza H₀. El género está significativamente asociado a la preferencia musical. El tamaño del efecto (V de Cramér ≈ 0,22) indica una asociación moderada.

Calcula el tuyo con la calculadora de chi-cuadrado de independencia.

Errores frecuentes y mitos sobre los contrastes de hipótesis

1. "p < 0,05 significa que hay un efecto real"

Un p-valor pequeño solo indica que los datos son poco compatibles con H₀. No garantiza que el efecto sea real ni reproducible. Con muchas comparaciones simultáneas (problema de comparaciones múltiples), es esperable obtener p < 0,05 por puro azar.

2. "p = 0,06 no es significativo, así que no hay efecto"

La ausencia de significación estadística no es evidencia de ausencia de efecto. Puede deberse a una muestra insuficiente. Informar solo si se cruzó el umbral de 0,05 es una práctica pobre que descarta información valiosa.

3. "El p-valor es la probabilidad de que H₀ sea verdadera"

El p-valor es P(datos tan extremos o más | H₀ verdadera), no P(H₀ verdadera | datos). Para obtener probabilidades sobre hipótesis se necesita un enfoque bayesiano con una distribución a priori.

4. "Con n grande siempre se obtiene significación"

Correcto, pero ese es precisamente el problema. Con n = 1.000.000, una diferencia irrelevante de 0,001 unidades puede tener p < 0,001. Por eso el tamaño del efecto y el intervalo de confianza son indispensables.

5. "Si el test no cumple supuestos, los resultados no sirven"

Depende del grado de violación. Muchos tests son robustos ante desviaciones moderadas de la normalidad, especialmente con n grande. En casos graves, existen alternativas no paramétricas o transformaciones de los datos.

6. "Un contraste de hipótesis es suficiente para tomar una decisión"

Un contraste es una herramienta, no un oráculo. Las decisiones deben integrarse con el contexto, los costes, el tamaño del efecto y la incertidumbre representada por el intervalo de confianza.

Recomendaciones de buenas prácticas

Pre-registro: Define las hipótesis, el tamaño muestral y el nivel α antes de recoger datos. Evita el p-hacking (ajustar el análisis hasta obtener p < 0,05).
Calcula el tamaño muestral a priori mediante un análisis de potencia. Usa las calculadoras de tamaño muestral disponibles.
Reporta el efecto estimado y su intervalo de confianza, no solo el p-valor y la decisión.
Distingue significación estadística de relevancia práctica. Interpreta los resultados en el contexto del problema real.
Verifica los supuestos del test antes de interpretar los resultados.
Aplica corrección por comparaciones múltiples (Bonferroni, Benjamini-Hochberg…) cuando realices más de un contraste simultáneamente.
Considera el enfoque bayesiano como alternativa o complemento, especialmente cuando la distribución a priori tiene información relevante.

Referencia fundamental

La American Statistical Association publicó en 2016 una declaración oficial sobre el uso e interpretación del p-valor que es lectura recomendada para cualquier persona que trabaje con contrastes de hipótesis: ASA Statement on Statistical Significance and P-Values (Wasserstein & Lazar, 2016).