¿Qué supuesto fundamental requiere el test F?

El test F de igualdad de varianzas asume que los datos de ambos grupos proceden de poblaciones con distribución normal. Es sensible a desviaciones de la normalidad, por lo que ante dudas sobre este supuesto conviene considerar alternativas robustas como el test de Levene o el de Bartlett.

¿Importa cuál varianza va en el numerador?

En un contraste bilateral no importa, ya que el p-valor se calcula teniendo en cuenta ambas colas. En contrastes unilaterales sí importa: si quieres contrastar que σ₁² > σ₂², debes colocar la varianza del grupo 1 en el numerador (F = s₁²/s₂²) y usar la cola derecha.

¿Cuándo usar el test F en lugar de la prueba de Levene?

El test F es adecuado cuando los datos pueden asumirse normales. La prueba de Levene es más robusta ante desviaciones de la normalidad y se recomienda cuando esta condición no puede verificarse. En la práctica, para muestras pequeñas con normalidad confirmada, el test F es la elección clásica.

¿Puede el test F aplicarse a más de dos grupos?

No directamente. El test F de igualdad de varianzas compara exactamente dos grupos. Para comparar la homogeneidad de varianzas en más de dos grupos se utilizan pruebas como el test de Bartlett o el test de Levene generalizado, que están diseñados para el caso de k grupos.

Calculadora de contraste de dos varianzas (test F)

Calculadora

Introduce las varianzas muestrales y los tamaños de muestra de los dos grupos. La calculadora obtiene el estadístico F, el p-valor, los valores críticos y la decisión al nivel de significación elegido.

Tamaño muestral grupo 1 (n₁)

Tamaño muestral grupo 2 (n₂)

Varianza muestral grupo 1 (s₁²)

Varianza muestral grupo 2 (s₂²)

Nivel de significación (α)

Tipo de contraste

Resultado pendiente…

Explicación

El test F de Snedecor es el procedimiento clásico para contrastar si dos poblaciones independientes presentan la misma variabilidad. En lugar de comparar promedios, este contraste evalúa si la dispersión de un grupo es significativamente mayor o menor que la del otro.

El método es habitual en control de calidad, estudios comparativos y como paso previo a otras pruebas: por ejemplo, la elección entre la t de Student con varianzas iguales o con varianzas distintas depende de si se puede asumir homocedasticidad, algo que precisamente evalúa este test.

El estadístico F se construye como el cociente entre las dos varianzas muestrales. Bajo la hipótesis nula de igualdad de varianzas, este cociente sigue una distribución F de Snedecor con \(n_1 - 1\) y \(n_2 - 1\) grados de libertad. Si las varianzas son muy distintas, el cociente se alejará de 1 y el test resultará significativo.

El supuesto fundamental es la normalidad de los datos en ambos grupos. El test F es sensible a esta condición; ante dudas sobre la normalidad conviene considerar alternativas como el test de Levene, más robusto.

Hipótesis y estadístico

El contraste plantea como hipótesis nula la igualdad de varianzas poblacionales:

\(H_0\colon \sigma_1^2 = \sigma_2^2\)

La hipótesis alternativa depende del tipo de contraste elegido:

Bilateral: \(H_1\colon \sigma_1^2 \neq \sigma_2^2\)
Cola derecha: \(H_1\colon \sigma_1^2 > \sigma_2^2\)
Cola izquierda: \(H_1\colon \sigma_1^2 < \sigma_2^2\)

El estadístico de contraste es el cociente de las varianzas muestrales:

\( F = \dfrac{s_1^2}{s_2^2} \)

Bajo \(H_0\), este estadístico sigue una distribución F de Snedecor con grados de libertad \(gl_1 = n_1 - 1\) y \(gl_2 = n_2 - 1\):

\( F = \dfrac{s_1^2}{s_2^2} \sim F_{n_1-1,\; n_2-1} \)

Se rechaza \(H_0\) cuando el estadístico F cae en la región crítica determinada por el nivel de significación \(\alpha\) y el tipo de contraste seleccionado.

Contraste rápido

Una primera lectura del estadístico F orienta sobre el resultado antes de mirar el p-valor:

F próximo a 1: las varianzas muestrales son similares. Salvo que las muestras sean muy grandes, es probable que no haya evidencia para rechazar \(H_0\).
F claramente mayor que 1: el grupo 1 presenta mayor variabilidad que el grupo 2. Cuanto más se aleje de 1, más evidencia a favor de \(\sigma_1^2 > \sigma_2^2\).
F claramente menor que 1: el grupo 2 presenta mayor variabilidad que el grupo 1. Un valor muy cercano a 0 indica fuerte evidencia de \(\sigma_1^2 < \sigma_2^2\).

En cualquier caso, la decisión formal debe basarse en el p-valor y en el nivel de significación \(\alpha\), no solo en la magnitud de F.

Si el resultado es significativo, conviene investigar el origen de la diferencia de variabilidades: distintos procesos, instrumentos, condiciones de medición, lotes o grupos humanos pueden explicar la disparidad observada.

Ejemplo resuelto

Se desea comparar la variabilidad de dos líneas de producción de piezas metálicas. Línea 1: varianza muestral \(s_1^2 = 16\) mm², tamaño muestral \(n_1 = 20\) piezas. Línea 2: varianza muestral \(s_2^2 = 9\) mm², tamaño muestral \(n_2 = 18\) piezas. Se contrasta \(H_0\colon \sigma_1^2 = \sigma_2^2\) frente a \(H_1\colon \sigma_1^2 \neq \sigma_2^2\) con \(\alpha = 0{,}05\) bilateral.

Paso 1 — Estadístico F

\( F = \dfrac{s_1^2}{s_2^2} = \dfrac{16}{9} \approx 1{,}7778 \)

Paso 2 — Grados de libertad

\( gl_1 = n_1 - 1 = 19, \quad gl_2 = n_2 - 1 = 17 \)

Paso 3 — Valores críticos (α = 0,05 bilateral)

El valor crítico superior es \(F_{0{,}025;\,19,\,17} \approx 2{,}63\). El valor crítico inferior es \(F_{0{,}975;\,19,\,17} = 1 / F_{0{,}025;\,17,\,19} \approx 0{,}38\).

Paso 4 — Decisión

Como \(0{,}38 < F = 1{,}7778 < 2{,}63\), el estadístico no cae en ninguna región de rechazo. El p-valor bilateral es \(p \approx 0{,}24 > 0{,}05\).

Conclusión: no se rechaza \(H_0\). Los datos no aportan evidencia significativa de que las dos líneas tengan varianzas distintas al nivel de significación del 5 %. Las variabilidades observadas son compatibles con la hipótesis de igualdad.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < \(\alpha\)) indica que el cociente de varianzas muestrales \(F = s^2_1 / s^2_2\) es estadísticamente incompatible con la igualdad poblacional \(\sigma^2_1 = \sigma^2_2\). En la práctica esto es relevante, por ejemplo, cuando se quiere decidir qué variante del test t usar (varianzas iguales o desiguales) o cuando la homogeneidad de varianzas es un supuesto del ANOVA. No obstante, el test F de Snedecor es muy sensible a desviaciones de la normalidad: un resultado significativo puede deberse a colas asimétricas más que a varianzas genuinamente distintas. Antes de actuar, inspecciona los datos visualmente.

No rechazar \(H_0\) (p-valor ≥ \(\alpha\)) no demuestra homocedasticidad; solo indica que los datos son compatibles con \(\sigma^2_1 = \sigma^2_2\) al nivel elegido. El test F tiene baja potencia con muestras pequeñas, por lo que puede no detectar diferencias reales de varianza. El cociente \(F\) observado y su intervalo de confianza aportan información sobre la magnitud relativa de las variabilidades.

El estadístico F sigue bajo \(H_0\) una distribución F de Snedecor con \((n_1-1, n_2-1)\) grados de libertad. En la visualización, la zona verde es la región de no rechazo y las zonas rojas son las colas críticas; la línea ámbar señala el estadístico observado. Dado que \(F \geq 0\), la distribución es asimétrica a la derecha: un \(F \gg 1\) sugiere mayor varianza en el grupo 1, mientras que \(F \ll 1\) sugiere mayor varianza en el grupo 2. Con muestras muy grandes, diferencias moderadas en varianzas pueden resultar significativas aunque tengan escaso impacto práctico.

Preguntas frecuentes

¿Qué supuesto fundamental requiere el test F? El test F asume que los datos de ambos grupos proceden de poblaciones con distribución normal. Es sensible a desviaciones de la normalidad, por lo que ante dudas sobre este supuesto conviene considerar alternativas robustas como el test de Levene o el de Bartlett.
¿Importa cuál varianza va en el numerador? En un contraste bilateral no importa, ya que el p-valor se calcula teniendo en cuenta ambas colas. En contrastes unilaterales sí importa: si quieres contrastar que \(\sigma_1^2 > \sigma_2^2\), debes colocar la varianza del grupo 1 en el numerador y usar la cola derecha.
¿Cuándo usar el test F en lugar de la prueba de Levene? El test F es adecuado cuando los datos pueden asumirse normales. La prueba de Levene es más robusta ante desviaciones de la normalidad y se recomienda cuando esta condición no puede verificarse. Para muestras pequeñas con normalidad confirmada, el test F es la elección clásica.
¿Puede el test F aplicarse a más de dos grupos? No directamente. El test F de igualdad de varianzas compara exactamente dos grupos. Para comparar la homogeneidad de varianzas en más de dos grupos se utilizan pruebas como el test de Bartlett o el test de Levene generalizado, diseñados para el caso de k grupos.

Referencia: Prueba F de igualdad de varianzas — Wikipedia