Contrastes de hipótesis

Calculadora de chi-cuadrado de independencia

Evalúa si dos variables categóricas son independientes.

Calculadora

Introduce la tabla de contingencia (filas separadas por saltos de línea y columnas por comas o espacios).

Resultado pendiente…
Frecuencias esperadas pendientes…

Explicación

El contraste chi-cuadrado de independencia permite evaluar si existe asociación entre dos variables categóricas a partir de los recuentos observados en una tabla de contingencia. La pregunta que responde es: ¿los datos son compatibles con que ambas variables se distribuyen de forma independiente, o hay evidencia de que una variable influye en la otra?

La idea central es comparar lo que se ha observado con lo que se esperaría si las variables fueran realmente independientes. Si las diferencias entre frecuencias observadas y esperadas son demasiado grandes para atribuirlas al azar, se rechaza la hipótesis de independencia y se concluye que existe asociación.

Por ejemplo, una empresa quiere saber si la satisfacción de sus clientes (alta, media, baja) depende del canal de compra (tienda física, web, app). Recoge datos de una muestra y construye una tabla de contingencia. Si el contraste resulta significativo, hay evidencia de que el canal y la satisfacción están asociados; si no lo es, los datos son compatibles con que ambas variables son independientes.

El estadístico de contraste agrega las discrepancias de todas las celdas de la tabla y sigue una distribución chi-cuadrado bajo la hipótesis nula. Los grados de libertad dependen del tamaño de la tabla: \((r-1)(c-1)\), donde \(r\) es el número de filas y \(c\) el número de columnas.

Hipótesis y estadístico

\(H_0\): las variables son independientes

\(H_1\): existe asociación entre las variables

\(\chi^2 = \sum_{i,j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\),   con \(E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n}\)

Contraste rápido

El estadístico chi-cuadrado suma, para cada celda de la tabla, el cuadrado de la diferencia entre frecuencia observada y esperada, dividido entre la frecuencia esperada. Bajo la hipótesis nula de independencia, este estadístico sigue aproximadamente una distribución \(\chi^2\) con \((r-1)(c-1)\) grados de libertad:

\(\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \sim \chi^2_{(r-1)(c-1)}\)

Las frecuencias esperadas se obtienen a partir de los totales marginales de la tabla. Para la celda de la fila \(i\) y la columna \(j\):

\(E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n}\)

donde \(n_{i\cdot}\) es el total de la fila \(i\), \(n_{\cdot j}\) es el total de la columna \(j\) y \(n\) es el total general de la tabla.

Para que la aproximación chi-cuadrado sea fiable, conviene que la mayoría de las frecuencias esperadas sean mayores o iguales que 5. Si la tabla es 2×2 con frecuencias pequeñas, considera el test exacto de Fisher.

Ejemplo resuelto

Se estudia la posible relación entre el hábito tabáquico y la enfermedad pulmonar en una muestra de 200 personas. La tabla de contingencia observada es:

No fumadores: con enfermedad = 10, sin enfermedad = 90 (total 100). Fumadores: con enfermedad = 25, sin enfermedad = 75 (total 100). Total general: con enfermedad = 35, sin enfermedad = 165, \(N = 200\).

Las frecuencias esperadas bajo independencia se calculan como \(E_{ij} = (\text{total fila}_i \times \text{total columna}_j) / N\). Por ejemplo, para no fumadores con enfermedad: \(E_{11} = 100 \cdot 35 / 200 = 17{,}5\). Para fumadores con enfermedad: \(E_{21} = 100 \cdot 35 / 200 = 17{,}5\). Para no fumadores sin enfermedad: \(E_{12} = 100 \cdot 165 / 200 = 82{,}5\). Para fumadores sin enfermedad: \(E_{22} = 82{,}5\).

El estadístico chi-cuadrado acumula las discrepancias entre frecuencias observadas y esperadas:

\( \chi^2 = \sum \dfrac{(O_{ij}-E_{ij})^2}{E_{ij}} = \dfrac{(10-17{,}5)^2}{17{,}5}+\dfrac{(90-82{,}5)^2}{82{,}5}+\dfrac{(25-17{,}5)^2}{17{,}5}+\dfrac{(75-82{,}5)^2}{82{,}5} \approx 7{,}79 \)

Los grados de libertad son \(gl = (2-1)(2-1) = 1\). El valor crítico para \(\alpha = 0{,}05\) es \(\chi^2_{0{,}05,\,1} \approx 3{,}84\). Como \(7{,}79 > 3{,}84\), se rechaza \(H_0\). El p-valor es \(p \approx 0{,}0052 < 0{,}05\).

Conclusión: se rechaza la independencia. Existe una asociación estadísticamente significativa entre el hábito tabáquico y la presencia de enfermedad pulmonar: los fumadores presentan una proporción de enfermos claramente superior a la esperada bajo independencia.

Cómo interpretar el resultado

Rechazar \(H_0\) (p-valor < \(\alpha\)) significa que hay evidencia estadística de que las dos variables categóricas no son independientes, es decir, que la distribución de una cambia en función de la categoría de la otra. Sin embargo, el test chi-cuadrado no informa ni de la dirección ni de la magnitud de la asociación: solo detecta su existencia. Para cuantificar la fuerza, calcula la V de Cramér \(V = \sqrt{\chi^2 / (n \cdot \min(r-1, c-1))}\), que varía entre 0 (independencia) y 1 (asociación perfecta). Valores de \(V\) alrededor de 0,1, 0,3 y 0,5 se interpretan habitualmente como asociación débil, moderada y fuerte, respectivamente.

No rechazar \(H_0\) (p-valor ≥ \(\alpha\)) no demuestra independencia; solo indica que los datos son compatibles con ella al nivel elegido. Con tablas grandes o celdas con frecuencias esperadas pequeñas la potencia puede ser insuficiente. Verifica que ninguna frecuencia esperada \(E_{ij} = n \cdot p_{i\cdot} \cdot p_{\cdot j}\) sea inferior a 5; si alguna lo es, considera fusionar categorías o usar el test exacto de Fisher (para tablas 2×2).

El estadístico chi-cuadrado se calcula sumando las discrepancias cuadráticas ponderadas de todas las celdas: \(\chi^2 = \sum_{ij}(O_{ij}-E_{ij})^2/E_{ij}\). Las celdas con residuos estandarizados \((O_{ij}-E_{ij})/\sqrt{E_{ij}}\) en valor absoluto superiores a 2 son las que más contribuyen y señalan dónde se concentra la asociación. En la visualización, la zona verde es la región de no rechazo y la zona roja es la cola crítica derecha; la línea ámbar muestra el estadístico observado.

Preguntas frecuentes

  • ¿Cuándo se usa el contraste chi-cuadrado de independencia? Cuando se quiere saber si dos variables categóricas están asociadas a partir de los recuentos de una tabla de contingencia.
  • ¿Cuántos grados de libertad tiene el estadístico? Los grados de libertad son \((r-1)(c-1)\), donde \(r\) es el número de filas y \(c\) el número de columnas de la tabla.
  • ¿Qué condición deben cumplir las frecuencias esperadas? La aproximación es adecuada cuando la mayoría de las frecuencias esperadas son ≥ 5. Si hay celdas con frecuencias esperadas muy bajas, conviene usar el test exacto de Fisher o agrupar categorías.
  • ¿Qué diferencia hay con el chi-cuadrado de bondad de ajuste? El de bondad de ajuste contrasta si una variable sigue una distribución teórica concreta. El de independencia contrasta si dos variables están asociadas entre sí, sin asumir ninguna distribución específica.
  • ¿Puede haber asociación sin causalidad? Sí. El contraste detecta asociación estadística, pero no permite concluir que una variable causa la otra. La causalidad requiere diseño experimental o argumentación adicional.
  • ¿Cómo afecta el tamaño muestral al resultado? Con muestras muy grandes, el contraste puede detectar asociaciones muy pequeñas que no son relevantes en la práctica. En esos casos conviene complementar el p-valor con una medida de tamaño del efecto como la V de Cramér.

Referencia: Prueba chi-cuadrado de independencia — Wikipedia