文章目录
AB实验是什么?
AB实验(A/B Testing)是一种用于比较两种或多种版本的测试方法,主要用于确定哪一个版本在某个特定指标上表现更好。通常应用在网站优化、产品开发、营销活动等领域。其基本原理是将用户或受众随机分配到两个组(A组和B组),每个组接触不同的版本(比如A组看到原始版本,B组看到新版本),然后比较两组在关键指标(如点击率、转化率或用户留存率)上的表现,以判断哪个版本效果更好。
AB实验的基本假定有哪些?
随机分配假定:样本随机分配,确保组间特征相似;
独立性假定:确保每个个体的反应是独立的,互相不影响;
实验期间稳定性假定:确保实验期间外部环境和用户行为模式的稳定性,不受到外部因素显著干扰(如节假日等的出现可能会干扰实验结果);
样本代表性假定:确保样本能代表整体用户;
无干预假定:确保组间唯一的差异是实验处理,除此之外不收任何影响;
充足样本量假定:确保样本量足够大以检测效果。
AB实验如何检测分流的均匀性?
分流是指在测试过程中将均匀分流确保两组在实验开始前是相似的,以便之后的差异可以归因于实验处理,而不是其他潜在的混杂因素。
为了检测分流的均匀性,可以采用统计检验的方法(如卡方检验、t检验),计算两组的置信区间、绘制关键特性(网站使用频率、点击次数等)可视化图表等。
什么是AA实验,AA实验和AB实验的差别是?
AA实验是一种在进行AB实验之前或者同时进行的测试,旨在验证实验的分流系统和方法是否正常工作。
在AA实验中,两组(通常称为A组和A’组)用户都会接受完全相同的处理,即两组看到的是相同的版本,没有任何变化。通过这种方式,AA实验用来验证实验系统的分流是否均匀,测试数据收集和分析的准确性,以及确保两组的基线是相同的。如果在AA实验中发现两组之间有显著差异,那么说明实验的分流、数据收集或分析方法可能存在问题,这需要在进行AB实验之前修正。
即:AA实验是AB实验的准备步骤,旨在确保实验环境的可靠性和分流的均匀性;AB实验则是在对比两个不同版本的效果,是为了验证改进是否有实际意义。
如何确定AB实验的最小样本量?
先确定几个关键性的参数
显著性水平(α):这通常被设为0.05(即5%),表示有5%的概率错误地拒绝了真实的无效假设(也就是出现假阳性的概率)。
统计功效(Power, 1-β):这通常设为0.8或0.9(即80%或90%),表示有80%或90%的概率正确地检测到实际存在的效果(即避免假阴性的概率)。
最小可检测效果(Minimum Detectable Effect, MDE):MDE是指希望检测到的两个版本之间的最小差异。例如,如果你希望检测到的转化率提升至少为5%,那么MDE就是5%。MDE越小,所需样本量越大(因为转化率提升越小,这种提升就越不容易被发现,那就需要更多的样本)。
基线转化率或标准差:这指的是在对照组(A组)中某个关键指标的当前表现(如点击率、转化率、均值、标准差等)。这是作为基准进行计算的基础。
使用样本公式计算
二项变量(如转化率)样本量公式:
n
=
2
×
(
Z
α
/
2
+
Z
β
)
2
×
p
×
(
1
−
p
)
(
MDE
)
2
n = \frac{2 \times (Z_{\alpha/2} + Z_{\beta})^2 \times p \times (1 - p)}{(\text{MDE})^2}
n=(MDE)22×(Zα/2+Zβ)2×p×(1−p)
p 是当前对照组的基线转化率。
MDE 是你希望检测到的最小可检测效果(比如希望从5%提升到6%,则MDE为1%)
这个公式适用于转化率、点击率等二项(离散)数据场景。
连续变量样本量公式:
n
=
2
×
(
Z
α
/
2
+
Z
β
)
2
×
σ
2
(
MDE
)
2
n = \frac{2 \times (Z_{\alpha/2} + Z_{\beta})^2 \times \sigma^2}{(\text{MDE})^2}
n=(MDE)22×(Zα/2+Zβ)2×σ2
σ 是数据的标准差,用于衡量数据的离散程度。
MDE 是你希望检测到的最小可检测效果(例如从100元提升到110元,MDE就是10元)
这个公式适用于平均值、分数等连续数据场景。
如何确定AB实验的实验周期?
首先根据上面的公式确定所需的样本量,然后分别考虑以下几项:
- 确定流量和样本收集速度:根据样本量需求和每日流量,计算达到目标样本量所需的时间。例如,如果每日流量是1,000,且你需要10,000个样本,那么至少需要10天。
- 考虑数据的自然波动和季节性:数据通常有日常或每周的波动(例如,用户在工作日和周末的行为可能不同)。因此,确保实验周期至少涵盖一个完整的周期(如一周),以捕捉所有可能的自然波动;如果数据有更长的季节性周期(如一个月或一年),根据具体情况,确保实验覆盖这些周期或选择在代表性的时间段内进行,以确保实验结果的普适性。
- 监控和动态调整:在实验开始后,持续监控实验进展和数据收集情况。如果在预期时间内样本量未达到预期,或发现数据有明显的波动或异常,可以考虑适当延长实验周期。
AB实验与因果推断的关系?
AB实验通过随机分配和控制变量的方式,确保在比较处理组和对照组时可以准确地测量处理对结果的因果影响。例如改变网页设计(处理)是否会导致转化率的上升(结果)。
互斥实验与正交实验的差异?
互斥实验:互斥实验是指实验中的多个处理或版本互不重叠,用户或受众只能被随机分配到其中的一个版本或处理组。每个实验组之间是互斥的,没有交集。
应用场景:互斥实验通常用于测试多个不同的方案,这些方案之间相互排斥,没有交集。例如,在测试不同的网页设计时,你可能有三个版本(A、B和C),每个用户被随机分配到这三个版本之一。目的是比较各组之间的效果差异,确定哪个版本的表现最好。
正交实验:正交实验是一种实验设计方法,在实验中多个因素或变量的组合被系统地排列和测试,以确定每个因素或变量对结果的影响。正交实验的核心是不同因素或处理之间是正交的,即这些因素彼此独立,并且可以组合起来测试。例如,如果你有两个因素(如按钮颜色和文案),每个因素有两个水平(如红色/蓝色和文案A/文案B),那么正交实验会生成所有可能的组合(如红色+文案A、红色+文案B、蓝色+文案A、蓝色+文案B)。
应用场景:正交实验适用于多因素的实验设计,可以同时测试多个因素及其交互作用。例如,你想测试按钮颜色(红色和蓝色)和页面布局(简单和复杂)对用户点击率的影响,可以使用正交实验设计来排列所有可能的组合,并测试每个组合的效果。
什么情况下不能用AB实验进行增效度量?在这种情况下我们又可以以什么方法进行实验评估?
- 用户之间存在相互影响(相互依赖/干扰效应)
- 情境:如果一个用户的行为会受到其他用户行为的影响,那么AB实验可能无法准确测量处理的效果。这种情况称为干扰效应或网络效应。例如,在社交媒体平台上,一个用户接收到的新功能可能会间接影响他们的朋友。
- 替代方法:
- 群组随机化实验(Cluster Randomized Trial):将一群互相关联的个体(例如一个社交圈或一个地理区域内的用户)作为一个单元进行分组和随机化,而不是以个体为单位进行分组。这样可以减少组间的干扰效应。
- 分阶段引入(Staggered Rollout):逐步在不同的用户群体或地理区域引入实验处理,并在每个阶段进行测量和比较,这样可以观察在不同时期的增效效果。
- 小样本量或低流量
- 情境:如果平台的流量很低或样本量有限,AB实验可能需要非常长的时间才能达到足够的统计功效。这会导致实验周期过长,从而影响实验的效率和准确性。
- 替代方法(采用小样本方法):
- 多臂赌博机(Multi-Armed Bandit)算法:在低流量的情况下,多臂赌博机方法可以更快地收敛到最优方案。这种方法不断调整不同方案的曝光率,将更多流量分配给表现更好的方案,从而优化效率。
- 贝叶斯实验:贝叶斯方法可以在小样本量的情况下估计概率分布并做出决策,它不依赖于大量样本来得出有意义的结果。
- 季节性或时间敏感
- 情境:如果实验数据具有明显的季节性或时间敏感性(例如节假日促销),AB实验可能难以在短时间内获得稳定的结果。AB实验需要一个稳定的时间窗口,但在季节性影响下,这个窗口很难保证。
- 替代方法:
- 中断时间序列分析(Interrupted Time Series Analysis):观察一段时间内的数据趋势,然后在应用处理后继续观察,判断处理是否造成了趋势的变化。这种方法适合有明确时点的处理,但需要足够长的时间序列数据来建模和控制其他外部因素。
- 实验处理具有长期影响
- 情境:如果实验处理的效果需要长时间才能显现或其影响在长期才会被观察到,AB实验可能在短期内无法准确评估。例如,用户教育类的处理(如更改注册流程、引导用户完成新手任务)通常需要更长时间才能看到结果。
- 替代方法:
- 长期追踪实验(Longitudinal Study):设计一个长期的实验计划,并定期追踪用户的行为和指标变化。这种方法可以捕捉处理的长期效应。
- 生存分析(Survival Analysis):这是一种统计方法,可以用于分析时间数据,尤其是在观察某个处理对用户留存或其他行为产生长期影响时。