1. 简介
1.1 定义
- 在工作和互联网大厂中经常被用来验证一个功能最终是否会被上线的重要手段
1.2 原理
- 来源于假设检验
- 比如,现在有两个同质的样本组,对其中一个组做出某种改动
- 观测这个改动对于我们关注的核心指标是否有显著的影响
- 这个实验中原假设就是这项改动并不会对我们所关注的核心指标有显著的影响
- 如果做完这个实验后发现p值足够小,则推翻原假设,证明这项改动会对多关注的核心指标产生显著影响
1.3 本质
- 同质样本组的对照实验
2. 辛普森悖论
2.1 定义
- 在某种条件下所关注的两组数据分别讨论时都会满足某种同样的性质
- 但是当把两个子数据集进行合并去观察整体时就会得出截然相反的结论
2.2 原因
- 把“值”和“量”两个维度的数据合并成了一个维度去进行讨论
- 通俗地讲,在划分数据集的时候,并没有对流量进行一个合理的分割,导致选取的实验组并不具有一定的代表性
2.3 影响
- 如果把辛普森悖论应用到互联网产品的实践中
- 很可能就是用1%流量的用户去跑了一个实验
- 然后得出结论:新版本比老版本更加受用户欢迎,而当新版本的产品上线之后,发现其实给用户的体验是下降的
2.4 解决方法
- 必须保证对于样本量进行一个合理的分配
- 保证所选取的样本量具有相似的特征,并且都能代表总体的特征
- 比如:
- 观察用户参与活动后领取福利的入口放在哪个位置更容易被用户点击
- 实验组和对照组中所圈定的用户都是一定要是参与活动的用户
- 而不能选择整体的大盘用户去作为观测基准
3. 实验样本量
3.1 计算公式
3.2 计算器
1. 在线计算器
https://www.evanmiller.org/ab-testing/sample-size.html
2. 参数
base conversion rate
:开实验之前对照组本身的表现情况- 比如
- 想要观测一个按钮的点击率变化
base conversion rate
原来点击率是多少,name这个点击率通常是根据历史数据去决定的
minimum defectable effect
:代表对判断精度的最低要求- 当这个参数越大,比如10%,代表检测出的差别只要达到10%即可
- 当这个参数值越小,比如1%,就需要检测出的差别值达到1%
- 所以这个参数值越小,对判断精度的要求越高,相应的所需样本量也就会增加
significance level
:显著性水平,表示第一类错误概率不超过5%statistic power
:第二类错误概率不超过20%