¿Qué es un test A/B?
Un test A/B —también llamado prueba A/B, experimento A/B o split test— es un método experimental controlado en el que se comparan dos versiones de algo para determinar cuál produce mejores resultados. La versión original recibe el nombre de control (A) y la versión modificada se denomina tratamiento o variante (B).
El principio es sencillo: se divide aleatoriamente a los usuarios en dos grupos, cada grupo experimenta una de las dos versiones y al final se compara la métrica de interés —tasa de conversión, tasa de clics, tiempo en página, ingresos por visita, etc.— con herramientas de estadística inferencial para determinar si la diferencia observada es real o simplemente resultado del azar.
El test A/B es la herramienta central del marketing de experimentación, el CRO (Conversion Rate Optimization) y el diseño de producto basado en datos. Empresas como Google, Amazon o Netflix realizan miles de tests A/B simultáneamente para tomar decisiones respaldadas por evidencia.
¿Para qué sirve un test A/B?
El test A/B sirve para tomar decisiones objetivas en cualquier contexto donde se pueda medir un resultado binario o continuo. Los casos de uso más habituales son:
- E-commerce y CRO: comparar dos versiones de una página de producto, un botón de compra, un titular o un formulario de registro.
- Email marketing: contrastar asuntos, llamadas a la acción o formatos para maximizar la tasa de apertura o clic.
- Aplicaciones móviles y web: evaluar cambios de interfaz, flujos de onboarding o nuevas funcionalidades antes de desplegarlas al 100% de los usuarios.
- Publicidad online: comparar creatividades, audiencias o páginas de destino para optimizar el coste por adquisición.
- Investigación clínica y ciencias del comportamiento: donde el diseño experimental aleatorizado es el estándar de evidencia más sólido.
Cómo funciona un test A/B paso a paso
Un experimento A/B bien diseñado sigue siempre la misma secuencia. Saltarse alguno de estos pasos es la causa más frecuente de resultados inválidos.
- Define la hipótesis y la métrica primaria. Antes de tocar nada, documenta qué cambias, por qué esperas que mejore y qué métrica única vas a usar para decidir. Una hipótesis mal definida abre la puerta al sesgo de confirmación.
- Calcula el tamaño muestral necesario. A partir de la tasa base actual, el efecto mínimo detectable (MDE) que consideras relevante para el negocio, el nivel de significación α y la potencia deseada (1−β). Usa la calculadora de MDE y potencia para este paso.
- Aleatoriza la asignación. Cada unidad de análisis (usuario, sesión, dispositivo) se asigna independientemente al grupo A o al grupo B con igual probabilidad. La aleatorización es lo que garantiza que los grupos sean comparables.
- Ejecuta el experimento durante el tiempo planificado. No lo detengas antes aunque el p-valor supere el umbral. El peeking —mirar resultados intermedios y decidir en función de ellos— infla el error de tipo I de forma grave.
- Analiza los resultados. Con los datos completos, calcula el estadístico de contraste, el p-valor y el intervalo de confianza para la diferencia. Usa el test Z de conversión si prefieres el enfoque frecuentista, o el análisis bayesiano para obtener directamente P(B > A).
- Toma una decisión e implementa. Interpreta el resultado en términos de negocio: ¿el efecto es estadísticamente significativo y también práctico? ¿El coste de implementar B merece la mejora estimada?
Conceptos estadísticos clave del test A/B
Hipótesis nula e hipótesis alternativa
Todo test A/B se formula como un contraste de hipótesis. La hipótesis nula (H₀) postula que no hay diferencia entre las dos variantes: la tasa de conversión de A y de B es la misma. La hipótesis alternativa (H₁) postula que sí existe una diferencia.
El objetivo del análisis estadístico es evaluar si los datos son suficientemente inconsistentes con H₀ como para rechazarla. Rechazar H₀ no prueba que H₁ sea verdad; solo indica que los datos son poco probables bajo el supuesto de que no hay efecto.
Los tests pueden ser bilaterales (¿es B diferente de A, en cualquier dirección?) o unilaterales (¿es B mejor que A?). En la práctica se recomienda el test bilateral salvo que exista una razón muy sólida para excluir una de las direcciones.
Nivel de significación (α) y p-valor
El nivel de significación α es la probabilidad máxima de error de tipo I que estás dispuesto a tolerar: la probabilidad de rechazar H₀ cuando en realidad es verdadera (falso positivo). El valor estándar en experimentación digital es α = 0,05, aunque en contextos de alto riesgo se usan valores más bajos (0,01 o 0,001).
El p-valor es la probabilidad de obtener, bajo H₀, un resultado tan extremo o más extremo que el observado (en valor absoluto en el caso bilateral). Si p < α se rechaza H₀ y se concluye que la diferencia es estadísticamente significativa. Es importante no confundir el p-valor con la probabilidad de que H₀ sea verdadera: son cosas distintas.
Un p-valor pequeño tampoco implica que el efecto sea importante para el negocio: con muestras muy grandes, diferencias ínfimas resultan estadísticamente significativas. Por eso siempre debe acompañarse del intervalo de confianza para la diferencia y del tamaño del efecto.
Potencia estadística y error de tipo II
La potencia estadística (1−β) es la probabilidad de detectar una diferencia real cuando esta existe. Dicho de otro modo, es la capacidad del test para evitar un falso negativo: concluir que no hay efecto cuando en realidad lo hay. La potencia estándar en experimentación es 0,80, aunque muchos equipos usan 0,90 para reducir el riesgo de no detectar mejoras reales.
La potencia depende del tamaño muestral, del tamaño del efecto verdadero y de α. Aumentar n siempre aumenta la potencia. Reducir α (ser más exigente con los falsos positivos) disminuye la potencia si el resto de parámetros se mantiene.
Tamaño muestral y efecto mínimo detectable (MDE)
El tamaño muestral es el número de observaciones necesarias en cada variante para que el test tenga la potencia deseada. No existe una regla universal: depende de cuatro parámetros que deben fijarse antes del experimento:
- Tasa base (p₀): la tasa de conversión actual del control.
- Efecto mínimo detectable (MDE): la mejora mínima —absoluta o relativa— que consideras relevante para el negocio. Efectos más pequeños requieren muestras más grandes.
- Nivel de significación α: habitualmente 0,05.
- Potencia (1−β): habitualmente 0,80.
El MDE es quizá el parámetro más infrautilizado. Fijarlo obliga a responder: "¿qué mejora mínima justificaría el coste de implementar el cambio?" Un MDE demasiado ambicioso (detectar mejoras del 1% relativo) dispara el tamaño muestral. Un MDE realista alinea estadística y negocio desde el principio.
Calcula el tamaño muestral de tu test con la calculadora de MDE, potencia y tamaño muestral.
Test A/B frecuentista vs. bayesiano
Existen dos grandes marcos estadísticos para analizar un test A/B. Cada uno responde a preguntas distintas y tiene ventajas e inconvenientes según el contexto.
Enfoque frecuentista
El enfoque frecuentista es el estándar clásico. Define H₀, fija α antes del experimento y, al finalizar, calcula el p-valor y decide si rechazar H₀. La conclusión es binaria: significativo o no significativo.
Sus ventajas son la interpretación controlada del error de tipo I y el amplio consenso metodológico. Su principal limitación es que el p-valor no dice qué tan probable es que B sea mejor que A: solo mide la compatibilidad de los datos con H₀.
Usa el test Z de conversión para el análisis frecuentista.
Enfoque bayesiano
El enfoque bayesiano parte de una distribución a priori sobre las tasas de conversión (habitualmente una distribución Beta) y la actualiza con los datos observados para obtener una distribución a posteriori. El resultado principal es P(B > A): la probabilidad directa de que la variante B sea mejor que la variante A.
Esta interpretación es más intuitiva para equipos de producto y negocio, ya que responde directamente a la pregunta relevante. Además, el análisis bayesiano no utiliza el concepto frecuentista de error de tipo I, aunque eso no significa que el peeking sea inocuo: tomar decisiones repetidamente basándose en un umbral de P(B > A) puede producir tasas de falsos positivos elevadas a largo plazo. Requiere también especificar una distribución a priori.
Usa el analizador bayesiano Beta-Binomial para este enfoque.
¿Cuál elegir?
No hay una respuesta única. El enfoque frecuentista es adecuado cuando la decisión debe cumplir criterios de significación estrictos (entornos regulados, publicaciones científicas). El bayesiano es preferible cuando se quiere monitorizar el test en tiempo real, cuando el equipo valora la interpretabilidad directa de probabilidades, o cuando se dispone de información previa sólida sobre la tasa de conversión.
Errores tipo I y tipo II en tests A/B
Al tomar una decisión estadística existen cuatro posibles resultados, dos de los cuales son errores:
Error de tipo I (falso positivo)
Concluir que B es mejor que A cuando en realidad no lo es. Se produce con probabilidad α. En experimentación digital este error es costoso porque implementarías un cambio que no mejora (o incluso empeora) la métrica.
Se controla fijando un α bajo antes del experimento y no realizando peeking: cada vez que miras los datos intermedios y podrías decidir, estás haciendo implícitamente múltiples tests y el error de tipo I real se dispara por encima de α.
Error de tipo II (falso negativo)
Concluir que no hay diferencia cuando en realidad B sí es mejor que A. Se produce con probabilidad β = 1 − potencia. En experimentación digital este error es igual de costoso: descartarías mejoras reales.
Se controla principalmente aumentando el tamaño muestral. Relajar α también reduce β, pero a costa de elevar el error de tipo I: ambos errores son vasos comunicantes y no puede reducirse uno sin incrementar el otro o aumentar n.
El problema del peeking
El peeking —detener el test en cuanto el p-valor supera el umbral por primera vez— es uno de los errores más frecuentes en tests A/B. El problema es que el p-valor fluctúa durante el experimento: si se mira repetidamente y se decide al primer p < 0,05, el error de tipo I real puede superar el 25% aunque α esté fijado en 0,05. La solución es respetar el tamaño muestral calculado de antemano o usar métodos de monitorización secuencial si se necesita flexibilidad (always-valid p-values, SPRT).
Comparaciones múltiples
Si se testean múltiples métricas secundarias o múltiples variantes sin corrección, la probabilidad de obtener al menos un falso positivo crece rápidamente. La corrección de Bonferroni (dividir α entre el número de comparaciones) es la más conservadora. En tests A/B con muchas variantes es preferible el método de Benjamini-Hochberg, que controla la tasa de descubrimiento falso (FDR) en lugar del error familywise.
Cuándo tiene sentido hacer un test A/B
El test A/B es la herramienta adecuada cuando se cumplen estas condiciones:
- Volumen suficiente: el tráfico o la muestra disponible permite alcanzar el tamaño muestral necesario en un plazo razonable. Con muy poco tráfico, los tests tardan meses y los resultados se contaminan con efectos estacionales.
- Métrica medible y estable: la variable de resultado puede medirse de forma fiable y su tasa base no fluctúa de forma anómala durante el experimento.
- Aleatorización posible: se puede asignar aleatoriamente cada unidad a una variante sin que haya contaminación entre grupos (efectos de red, spillover).
- La hipótesis es específica: se cambia una sola cosa o un conjunto coherente de cambios, no múltiples elementos a la vez que harían imposible atribuir el efecto a una causa concreta.
Cuando el volumen es insuficiente o la aleatorización no es posible existen alternativas: tests antes-después con control sintético, diferencias en diferencias, regresión discontinua o análisis bayesiano con priors informativos.
Buenas prácticas y errores comunes en tests A/B
- Planifica antes de empezar. Define hipótesis, métrica primaria, MDE, α, potencia y tamaño muestral antes de lanzar el experimento. Un test sin planificación previa casi nunca puede interpretarse correctamente.
- No hagas peeking. No tomes decisiones hasta alcanzar el tamaño muestral planeado. Usa la simulación de experimentos para ver empíricamente cómo el peeking infla el error de tipo I.
- Una sola métrica primaria. Definir múltiples métricas primarias sin corrección multiplica el riesgo de falsos positivos. Las métricas secundarias son exploratorias y no determinan la decisión.
- Verifica la aleatorización. Realiza un A/A test o comprueba que las covariables pre-experimento (edad, dispositivo, canal de adquisición) están equilibradas entre grupos antes de concluir.
- Informa el intervalo de confianza. El p-valor solo dice "significativo o no". El intervalo de confianza para la diferencia de tasas informa sobre la magnitud del efecto y su incertidumbre, que es lo que importa para la decisión de negocio.
- Considera la significación práctica. Una diferencia estadísticamente significativa puede no ser relevante para el negocio si el efecto es demasiado pequeño para justificar el coste de implementación.
- Respeta la duración mínima. Aunque el tamaño muestral se alcance antes, es recomendable mantener el test al menos una semana completa para capturar variabilidad por día de la semana.
- No reutilices datos del pasado. Comparar la variante B con datos históricos del control viola el supuesto de aleatorización y produce comparaciones sesgadas.
Ejemplo resuelto: test A/B de conversión
Supongamos que tienes una página de producto con una tasa de conversión del 4,2% y quieres evaluar si un nuevo diseño del botón de compra mejora esa tasa. Tu MDE es del 10% relativo (es decir, quieres detectar si la nueva tasa supera el 4,62%). Con α = 0,05, contraste bilateral y potencia = 0,80, la calculadora de tamaño muestral te indica que necesitas aproximadamente 37.500 usuarios por variante.
Tras ejecutar el test durante tres semanas completas obtienes los siguientes resultados:
- Control (A): 37.500 visitas, 1.575 conversiones → tasa = 4,20%
- Variante (B): 37.500 visitas, 1.800 conversiones → tasa = 4,80%
La mejora absoluta es de 0,60 puntos porcentuales y la mejora relativa es del 14,3%. Con el test Z de conversión obtienes un p-valor de aproximadamente 0,000074, inferior a α = 0,05, por lo que se rechaza H₀: la diferencia es estadísticamente significativa. El intervalo de confianza al 95% para la diferencia va de +0,30 pp a +0,90 pp, lo que indica que el efecto real es positivo aunque todavía debe valorarse su impacto práctico.
Con el analizador bayesiano, P(B > A) es prácticamente 100%, lo que refuerza la conclusión. Puedes entonces implementar el nuevo diseño con confianza estadística y un tamaño de efecto relevante para el negocio.
Flujo recomendado para un experimento A/B
- Define la hipótesis, la métrica primaria y el efecto mínimo detectable antes de tocar nada.
- Planifica el tamaño muestral y la duración estimada con tráfico realista usando la calculadora de potencia.
- Aleatoriza la asignación y verifica el equilibrio entre grupos antes del lanzamiento.
- Ejecuta el test sin intervenir: no lo detengas por mirar el p-valor, no cambies la variante a mitad del experimento.
- Analiza con el test Z o el análisis bayesiano al alcanzar el tamaño muestral planificado.
- Decide combinando significación estadística, magnitud del efecto y coste de implementación.
- Documenta el resultado, incluyendo los casos en que no se detectó efecto: los resultados nulos también son valiosos.
Preguntas frecuentes sobre el test A/B
¿Cuánto tiempo debe durar un test A/B?
El tiempo mínimo se calcula dividiendo el tamaño muestral necesario entre el tráfico diario disponible. Independientemente del resultado, se recomienda mantener el test durante al menos una semana completa para capturar el efecto del día de la semana. En entornos con marcada estacionalidad semanal, dos semanas completas son preferibles.
¿Qué pasa si el p-valor es exactamente 0,05?
Un p-valor de exactamente 0,05 no cambia cualitativamente nada respecto a 0,049 o 0,051. La frontera es una convención, no una verdad absoluta. En ese umbral, el intervalo de confianza para la diferencia tocará el cero por uno de sus extremos y la incertidumbre sobre el efecto es máxima. Considera aumentar el tamaño muestral o recurrir al análisis bayesiano para obtener una perspectiva complementaria.
¿Puedo hacer un test A/B con muy poco tráfico?
Con poco tráfico, el test tardará mucho en alcanzar el tamaño muestral necesario y los efectos estacionales contaminarán los resultados. En ese caso, el enfoque bayesiano con priors informativos permite incorporar conocimiento previo sobre la tasa de conversión y obtener conclusiones más rápidamente, asumiendo los compromisos adicionales que implica la elección del prior.
¿Se puede hacer un test A/B con más de dos variantes?
Sí: se denomina test A/B/n o test multivariante. La complejidad estadística aumenta porque hay que controlar las comparaciones múltiples. Lo más habitual es usar una corrección de Bonferroni para los contrastes pairwise o un análisis ANOVA seguido de comparaciones post-hoc. El tamaño muestral necesario también crece con el número de variantes.
¿Qué es un A/A test?
Un A/A test expone a los dos grupos a la misma experiencia. Sirve para verificar que el sistema de aleatorización funciona correctamente y que no existen diferencias previas entre grupos. Si el A/A test concluye con diferencias significativas frecuentes, hay un problema en la implementación del experimento.