¿Por qué la precisión del IC para OR se expresa en escala logarítmica?

Porque la distribución muestral de log(OR) es aproximadamente normal, mientras que la de OR es asimétrica y solo toma valores positivos. El error estándar de log(OR) es el parámetro estable que permite planificar el estudio.

¿Cómo interpreto el margen E_log?

E_log es la semi-amplitud del IC en escala log(OR). El IC para OR va de OR·e^(−E_log) a OR·e^(+E_log). Por ejemplo, E_log=0,5 da un IC entre 0,61·OR y 1,65·OR; E_log=log(2)≈0,693 da un IC entre OR/2 y OR·2.

¿El resultado es por grupo o el total?

La fórmula da el número mínimo de observaciones por grupo (asignación 1:1 entre expuestos y no expuestos). El total de sujetos es 2·n.

¿El tamaño muestral es exacto?

No. Depende de los valores supuestos de p₂ y OR, que deben estimarse de datos piloto o de la literatura. Añade un colchón del 10–20 % para compensar pérdidas o exclusiones.

Tamaño muestral odds ratio IC

Calculadora

Introduce la OR esperada, la proporción del evento en el grupo de referencia y la precisión deseada en escala log(OR).

Odds ratio esperada (OR)

Proporción del evento en grupo de referencia (p₂)

Semi-amplitud del IC en escala log(OR) (E_log)

Nivel de confianza

Resultado pendiente…

Explicación

La odds ratio (OR) mide la asociación entre una exposición y un evento en una tabla 2×2. Para planificar cuántos sujetos se necesitan para estimarla con una precisión dada, el cálculo se realiza en la escala logarítmica, porque \(\log(\widehat{OR})\) se distribuye aproximadamente normal con un error estándar que depende de los recuentos de cada celda.

Los inputs son: la OR que se espera encontrar, la proporción del evento en el grupo de referencia (\(p_2\)) y la precisión deseada expresada como semi-amplitud del IC en escala \(\log(OR)\). A partir de \(p_2\) y OR, la calculadora deriva \(p_1\) (proporción del evento en el grupo expuesto). Con ambas proporciones calcula el número mínimo de sujetos por grupo para que el IC tenga la amplitud fijada.

La fórmula asume asignación equilibrada (mismo número de sujetos en cada grupo) y suficientes recuentos en las cuatro celdas para que la aproximación normal sea válida.

Fórmulas

Dada la OR esperada y \(p_2\), la proporción del evento en el grupo expuesto se obtiene invirtiendo la definición de odds ratio:

\( p_1 = \frac{OR \cdot p_2}{1 + (OR - 1)\cdot p_2} \)

El error estándar de \(\log(\widehat{OR})\) para una tabla con \(n\) observaciones por grupo es:

\( SE\!\left[\log(\widehat{OR})\right] = \frac{1}{\sqrt{n}} \cdot \sqrt{\frac{1}{p_1(1-p_1)} + \frac{1}{p_2(1-p_2)}} \)

Imponiendo que el margen del IC sea \(E_{\log} = Z \cdot SE\), se despeja \(n\):

\( n = \frac{Z^2 \cdot \left[\dfrac{1}{p_1(1-p_1)} + \dfrac{1}{p_2(1-p_2)}\right]}{E_{\log}^2} \)

n: número mínimo de observaciones por grupo (total N = 2n).
Z: cuantil normal — 1,645 (90 %), 1,960 (95 %), 2,576 (99 %).
\(E_{\log}\): semi-amplitud del IC en escala \(\log(OR)\). El IC para OR queda entre \(OR \cdot e^{-E_{\log}}\) y \(OR \cdot e^{+E_{\log}}\).

Cómo interpretar E_log

La semi-amplitud \(E_{\log}\) determina cuánto puede alejarse cada límite del IC de la OR estimada en escala multiplicativa. Con OR = 2 y \(E_{\log} = 0{,}5\), el IC va de \(2 \cdot e^{-0{,}5} \approx 1{,}21\) a \(2 \cdot e^{+0{,}5} \approx 3{,}30\). Una referencia útil: \(E_{\log} = \log(2) \approx 0{,}693\) produce un IC donde el límite superior es exactamente el doble del inferior.

Configuración rápida

OR esperada: basada en estudios previos o en la mínima asociación que consideras relevante.
p₂ (grupo de referencia): frecuencia del evento en la población no expuesta. Es el parámetro que más influye junto con OR.
E_log: semi-amplitud en escala log. Valores entre 0,3 y 0,7 son habituales. Menor E_log → IC más estrecho → más sujetos.
Nivel de confianza: 95 % es el estándar; usa 99 % en decisiones regulatorias o de alto impacto.
Pérdidas esperadas: divide n por grupo entre (1 − tasa de pérdida).

Ejemplo resuelto

Un epidemiólogo quiere estimar la odds ratio de una enfermedad en expuestos vs. no expuestos a un factor de riesgo. Según la literatura, la proporción de la enfermedad en no expuestos es \(p_2 = 0{,}20\) y la OR esperada es 2,0. Se desea un IC al 95 % con una semi-amplitud de \(E_{\log} = 0{,}5\) en escala logarítmica.

Primero derivamos \(p_1\):

\( p_1 = \frac{2{,}0 \times 0{,}20}{1 + (2{,}0 - 1) \times 0{,}20} = \frac{0{,}40}{1{,}20} = 0{,}333 \)

Ahora calculamos n:

\( n = \frac{(1{,}960)^2 \cdot \left[\dfrac{1}{0{,}333 \times 0{,}667} + \dfrac{1}{0{,}20 \times 0{,}80}\right]}{(0{,}5)^2} = \frac{3{,}8416 \times (4{,}502 + 6{,}25)}{0{,}25} = \frac{41{,}30}{0{,}25} = 165{,}2 \rightarrow n = 166 \text{ por grupo} \)

Se necesitan 166 sujetos por grupo (332 en total). El IC resultante para OR irá aproximadamente de \(2{,}0 \cdot e^{-0{,}5} \approx 1{,}21\) a \(2{,}0 \cdot e^{+0{,}5} \approx 3{,}30\), lo que corresponde a un cociente U/L = e ≈ 2,72.

Análisis de sensibilidad: si la OR real fuese 3,0 en lugar de 2,0, el n se reduciría porque las proporciones estarían más separadas y la OR sería más fácil de estimar con precisión. Siempre es recomendable recalcular para un rango plausible de OR.

Supuestos del modelo

Diseño con dos grupos de igual tamaño (asignación 1:1 entre expuestos y no expuestos).
Suficientes recuentos en las cuatro celdas (\(n \cdot p_i\) y \(n \cdot (1-p_i)\) ≥ 5 en ambos grupos) para que la aproximación normal a \(\log(OR)\) sea válida.
Los valores de p₂ y OR son estimados de forma fiable; la incertidumbre en estos supuestos se propaga al tamaño muestral.
Para estudios caso-control con ratio cases:controls ≠ 1:1, la fórmula debe ajustarse.

Usos frecuentes

Diseño de estudios de cohortes o transversales donde la medida de asociación principal es la OR.
Planificación de análisis de regresión logística cuando se quiere caracterizar la OR con precisión suficiente.
Estudios de prevalencia de factores de riesgo en epidemiología analítica.

Cómo interpretar el resultado

El valor \(n\) es el tamaño mínimo por grupo para que el intervalo de confianza del odds ratio en escala logarítmica tenga una semiancho máximo de \(E_{\log}\) con el nivel de confianza especificado. En términos del OR natural, esto significa que el cociente entre el límite superior e inferior del IC será como mucho \(e^{2E_{\log}}\). Redondea \(n\) siempre hacia arriba. Añade el margen por pérdidas dividiendo \(n\) entre \((1 - \text{tasa de pérdida})\) para obtener el número de reclutamiento por grupo; el total a reclutar es \(2n\) ajustado.

Los parámetros más influyentes son \(p_2\) (la proporción de referencia) y el OR especificado, ya que determinan conjuntamente \(p_1 = \text{OR} \times p_2 / (1 + p_2(\text{OR} - 1))\) y la varianza del estimador. Realiza un análisis de sensibilidad variando \(p_2\) en ±0,05 y el OR en un rango razonable: cuando \(p_2\) es muy pequeña o muy grande, la varianza del \(\log(\widehat{\text{OR}})\) es mayor y se necesitan más sujetos. Igualmente, un OR más cercano a 1 requiere más sujetos para estimar el log-OR con la misma precisión absoluta. Ten en cuenta que \(E_{\log}\) es la precisión en escala logarítmica; si necesitas interpretar el resultado en escala natural, calcula que \(E_{\log} = 0{,}3\) corresponde a un factor multiplicativo de \(e^{0{,}3} \approx 1{,}35\) en el límite superior respecto al centro del IC.

Este enfoque (IC) difiere del de contraste de hipótesis: aquí el objetivo es estimar el OR con cierta precisión, no decidir si difiere de 1. Si lo que necesitas es detectar un OR \(\neq 1\) con determinada potencia, usa la calculadora de tamaño muestral para contraste del OR. Con los datos recogidos, calcula el OR y su IC con la calculadora de odds ratio e interpreta los límites del IC en el contexto clínico o epidemiológico del estudio.

Referencias y lecturas adicionales

Woolf, B. (1955). On estimating the relation between blood group and disease, Annals of Human Genetics, 19, 251–253.
Kelsey, J. L., Whittemore, A. S., Evans, A. S., & Thompson, W. D. (1996). Methods in Observational Epidemiology (2.ª ed.). Oxford University Press.
Schlesselman, J. J. (1982). Case-Control Studies: Design, Conduct, Analysis. Oxford University Press.

Preguntas frecuentes

¿Qué E_log es razonable? Depende de cuánta imprecisión es tolerable. E_log=0,5 da un IC que varía por un factor e≈2,7 entre límites; E_log=0,3 lo reduce a e^(0,6)≈1,82. Menor E_log exige más muestra.
¿Por qué la OR se estima en escala log? Porque log(OR) tiene distribución muestral aproximadamente normal y error estándar estable, mientras que OR es positiva y asimétrica.
¿Este cálculo sirve para estudios caso-control? Con precaución. En caso-control la lógica es diferente (los grupos son casos y controles, no expuestos y no expuestos), aunque la fórmula puede usarse como aproximación cuando el evento no es raro.