¿Qué diferencia hay entre no inferioridad y equivalencia?

En no inferioridad se comprueba que el tratamiento nuevo no es peor que el de referencia en más de un margen M (contraste unilateral). En equivalencia se comprueba que la diferencia está dentro de ±M en ambas direcciones (TOST, dos contrastes unilaterales).

¿Cómo se elige el margen de no inferioridad?

El margen M debe definirse clínicamente antes del estudio: es la máxima diferencia que se considera aceptable. Suele derivarse de datos históricos del comparador activo.

¿Por qué los ensayos de no inferioridad necesitan más muestra que los de superioridad?

Porque la hipótesis nula es la inversa: hay que demostrar que algo NO es peor, lo que exige mayor precisión para excluir diferencias pequeñas.

¿Qué diferencia asumida (δ) debo usar?

Habitualmente δ = 0 (se asume que el tratamiento es equivalente al control). Si se espera una pequeña ventaja del tratamiento, δ puede ser positivo; si se espera ligera inferioridad, negativo (solo para NI).

Tamaño muestral no inferioridad | Calculadora

Calculadora

Selecciona el tipo de ensayo y configura los parámetros del diseño.

Tipo de ensayo

Desviación estándar común (σ)

Margen M (positivo)

Diferencia asumida (δ = μT − μC)

Alfa (α) — unilateral

Potencia (1-β)

Resultado pendiente…

Explicación

Los ensayos de no inferioridad buscan demostrar que el tratamiento nuevo (T) no es peor que el de referencia (C) en más de un margen preestablecido M. Los ensayos de equivalencia (TOST, Two One-Sided Tests) exigen que la diferencia esté dentro de ±M en ambas direcciones. En ambos casos, α es unilateral; el valor habitual es 0,025 (equivalente a un intervalo de confianza del 95 % para la diferencia).

Este tipo de ensayos contrasta con los ensayos de superioridad, donde se busca demostrar que T es mejor que C. En no inferioridad la hipótesis nula es "T es inferior a C en más de M", y rechazarla —demostrando que la diferencia cae por encima de −M— basta para concluir no inferioridad. La elección del margen M es la decisión clínica más crítica del diseño: debe ser la pérdida máxima de eficacia que sería clínica y regulatoriamente aceptable.

Fórmulas

No inferioridad — con \(\delta = \mu_T - \mu_C\) asumido:

\( n = \left\lceil \frac{2\,\sigma^2\,(Z_\alpha + Z_\beta)^2}{(M + \delta)^2} \right\rceil \)

Equivalencia (TOST) — con \(\delta\) asumido:

\( n = \left\lceil \frac{2\,\sigma^2\,(Z_\alpha + Z_\beta)^2}{(M - |\delta|)^2} \right\rceil \)

M: margen de no inferioridad o equivalencia (definido clínicamente, siempre positivo).
δ: diferencia verdadera asumida (\(\mu_T - \mu_C\)); el supuesto más conservador es δ = 0.
σ: desviación estándar común de la variable principal (tomada de estudios previos o piloto).
Z_α: cuantil normal unilateral. Para α = 0,025 corresponde a Z = 1,96.
La fórmula de equivalencia exige \(M > |\delta|\); si δ = 0 ambas fórmulas producen el mismo n.

Configuración rápida

M: defínelo clínicamente antes del estudio; refleja la pérdida máxima aceptable de eficacia. Regulatoriamente suele fijarse entre el 50 % y el 80 % del efecto del comparador sobre placebo.
δ = 0: supuesto conservador; significa que T y C tienen exactamente la misma eficacia media. Si esperas que T sea algo peor, δ negativo aumentará n; si crees que T es algo mejor, δ positivo lo reduce.
α = 0,025 unilateral: el estándar regulatorio (EMA/FDA) para ensayos de no inferioridad equivale a un IC del 95 % para la diferencia.
Potencia: 0,80 habitualmente; 0,90 en estudios pivotales o con consecuencias regulatorias.

Ejemplo resuelto

Una empresa farmacéutica desarrolla un nuevo antihipertensivo genérico para sustituir al tratamiento de referencia (innovador). La variable principal es la reducción de la presión arterial diastólica en mmHg tras ocho semanas de tratamiento. Los datos históricos del fármaco de referencia indican una desviación típica de σ = 10 mmHg.

El comité clínico fija el margen de no inferioridad en M = 5 mmHg: una diferencia inferior a 5 mmHg entre tratamientos se considera clínicamente irrelevante y no justifica mantener el innovador más caro. Bajo la hipótesis de trabajo más conservadora se asume que ambos fármacos tienen exactamente el mismo efecto medio, es decir δ = 0.

Los parámetros de diseño siguen las guías regulatorias EMA/FDA para ensayos de no inferioridad: nivel de significación unilateral α = 0,025 (equivalente a un intervalo de confianza del 95 % para la diferencia) y potencia del 80 % (β = 0,20). Los cuantiles correspondientes son \( z_{\alpha} = 1{,}960 \) y \( z_{\beta} = 0{,}842 \).

La fórmula para dos grupos paralelos con varianzas iguales es:

\( n = \dfrac{2\,\sigma^{2}\,(z_{\alpha}+z_{\beta})^{2}}{(M+\delta)^{2}} \)

Sustituyendo los valores:

\( n = \dfrac{2 \times 100 \times (1{,}960+0{,}842)^{2}}{(5-0)^{2}} = \dfrac{200 \times 7{,}851}{25} = \dfrac{1\,570{,}2}{25} \approx 62{,}8 \rightarrow 63 \text{ por grupo} \)

Aplicando el ajuste habitual por pérdidas de seguimiento del 15 %, el ensayo precisa reclutar aproximadamente 75 pacientes por grupo (total ≈ 150), ya que 63 / (1 − 0,15) = 74,1 → 75. Este margen garantiza que, incluso si un 15 % de los participantes no completa el seguimiento, el análisis por intención de tratar conservará la potencia planificada del 80 %.

La conclusión regulatoria es que, si el límite inferior del IC del 95 % para la diferencia (genérico − referencia) queda por encima de −5 mmHg, se declarará no inferioridad y el fármaco podrá comercializarse como alternativa terapéutica equivalente al innovador.

Supuestos del modelo

Normalidad: la variable de resultado sigue una distribución normal (o n suficientemente grande para aplicar el TCL).
Varianzas iguales: la fórmula supone \(\sigma_T = \sigma_C = \sigma\). Si difieren, usa la media cuadrática como aproximación o métodos más elaborados.
Diseño paralelo 1:1: la fórmula da n por grupo en un ensayo balanceado de dos grupos independientes.
Margen definido a priori: el margen M debe fijarse antes de ver los datos; cambiarlo post-hoc invalida el análisis.
σ conocida: en la práctica σ se estima; para muestras pequeñas considerar usar cuantiles t en lugar de Z (aumenta ligeramente n).

Usos frecuentes

Ensayos de medicamentos genéricos o biosimilares frente al innovador.
Comparación de un tratamiento menos tóxico o de administración más cómoda con el estándar de eficacia probada.
Validación de procedimientos diagnósticos o quirúrgicos alternativos.
Bioequivalencia farmacocinética (aunque para PK se usan modelos ANOVA cruzado con límites específicos del 80–125 %).

Cómo interpretar el resultado

El valor \(n\) es el tamaño mínimo por grupo (diseño balanceado 1:1) para demostrar no-inferioridad del tratamiento experimental respecto al control con la potencia y el nivel \(\alpha\) especificados. El número total de participantes a reclutar es \(2n\) más el ajuste por pérdidas: divide cada \(n\) entre \((1 - \text{tasa de pérdida})\). La hipótesis que se contrasta es \(H_0\!: \mu_E - \mu_C \leq -M\) frente a \(H_1\!: \mu_E - \mu_C > -M\), donde \(M > 0\) es el margen de no-inferioridad; un resultado significativo (\(p < \alpha\)) permite concluir que el tratamiento experimental no es peor que el control por más de \(M\) unidades.

La elección del margen \(M\) es la decisión más crítica del diseño y debe hacerse con criterio clínico antes de ver los datos, no post-hoc. Un \(M\) demasiado amplio hace el estudio trivialmente fácil de pasar pero no garantiza eficacia clínica real; uno demasiado estrecho puede hacer el \(n\) inviable. Aumentar \(M\) reduce el \(n\) cuadráticamente (doblar \(M\) reduce \(n\) a la cuarta parte); reducir \(\sigma\) también lo disminuye cuadráticamente. Realiza un análisis de sensibilidad variando \(M\) en ±20 % y \(\sigma\) en ±25 % para ver el impacto en el \(n\) requerido. La potencia del 80 % es el mínimo habitual en este tipo de estudios; la EMA y la FDA suelen recomendar una potencia del 90 % para ensayos de no-inferioridad, lo que aumenta \(n\) aproximadamente un 30 %.

Recuerda que los ensayos de no-inferioridad tienen un riesgo especial de error de tipo I: una mala calidad del estudio (alta variabilidad, mala adherencia) puede hacer que un tratamiento inferior parezca no inferior. Por ello es fundamental preestablecer el margen en el protocolo, maximizar la calidad del estudio y analizar tanto la población por intención de tratar (ITT) como la por protocolo (PP); si ambos análisis concuerdan en no-inferioridad, la conclusión es más sólida. Una vez completado el estudio, construye el IC del 95 % para la diferencia de medias y comprueba si el límite inferior supera \(-M\); usa la calculadora de IC para diferencia de medias para este análisis.

Referencias externas

Non-inferiority trial (Wikipedia en inglés) — diseño, hipótesis nula y alternativa, margen M
Equivalence trial (Wikipedia en inglés) — TOST y bioequivalencia
Two one-sided tests — TOST (Wikipedia en inglés)
Sample size determination (Wikipedia en inglés)
ICH E9 (1998). Statistical Principles for Clinical Trials. International Council for Harmonisation — guía regulatoria de referencia para α unilateral y definición del margen.

Preguntas frecuentes

¿Qué diferencia hay entre NI y equivalencia? No inferioridad es unilateral: basta con demostrar que T no es peor en más de M (solo un límite). Equivalencia (TOST) es bilateral: hay que demostrar que la diferencia cae dentro de ±M en ambas direcciones, lo que requiere mayor muestra cuando δ ≠ 0.
¿Por qué α unilateral = 0,025? Es el estándar regulatorio EMA/FDA: usar α = 0,025 unilateral equivale a un IC del 95 % para la diferencia, garantizando el mismo control del error de tipo I que en un ensayo de superioridad.
¿Cómo elijo M? Siguiendo las guías regulatorias (EMA, FDA), M suele fijarse como fracción (50–80 %) del efecto del comparador frente a placebo. Debe determinarse antes del estudio y justificarse clínica y estadísticamente en el protocolo.
¿Qué pasa si δ ≠ 0? Si esperas que el nuevo tratamiento sea algo inferior (δ negativo en NI), el denominador M+δ se reduce y n aumenta; si esperas que sea algo superior, n disminuye. En equivalencia, |δ| debe ser estrictamente menor que M.
¿El tamaño muestral es exacto? Es una aproximación normal; funciona bien para σ conocida o muestras moderadas. Con σ desconocida o n < 30, considerar añadir un 5–10 % por incertidumbre en σ.