AB测试的统计学原理

随笔记一些:

1. 大数定理说明频率的极限是概率;中心极限定理说明不论总体服从何种分布,从中抽取n个样本,则这n个样本的总和或平均数是一个随机变量,当n足够大时,这n个样本的总和或平均数服从正态分布。假设检验的所有原理都依赖于中心极限定理。

2. AB测试中的假设检验都用双侧检验,这样比较容易记忆和处理,即原假设都设置为等号,即AB策略没有差异(当然,如果你愿意,你可以根据实际情况来设置单侧检验,这样求T值的时候注意)。

3. AB测试中的假设检验一般用Ttest,因为AB测试是一个标准的独立双样本检验;T检验既适用于大样本又适用于小样本,而Z检验只适用于大样本,所以一般情况下AB测试中的假设检验都用T检验(这也是为什么有些软件只给出T检验的相关模块)。T统计量/T值的计算方法,T=(avgX - avgY)/sqrt(X方差/n1 + Y方差/n2),T值和p值之间可以互相转化,通过查表用T值其实可以直接进行结论判定了,但是一般情况下还是要转化为p值判断更方便(无论是Excel,SPSS,R还是python的T检验都是直接算出了p值),Excel里面TDIST函数可以转化T值为p值。

4. P值的含义:假设检验首先要设一个原假设,在原假设的基础上我们构造/找到一个已知分布的统计量(T),我们可以计算出来在一次抽样结果下的这个已知分布的统计量的值(T值),P值的具体含义是当原假设为真时,一次试验中出现比T值更极端的情况的概率值,如果这个值比较小,那我们就认为在一次抽样试验中小概率事件发生了,也就会拒绝原假设;那这个概率多小算小呢,一般会设置一个显著性水平alpha=0.05,小于0.05就算小;p=0.05的含义就是:在一次试验中,一个出现概率为0.05的事件出现了,那我们就有足够的理由怀疑我们的假设是错的。

5. p值越小代表我们越有理由来拒绝原假设,“越显著”的意思并不是说AB组的差异越大,【P越小/更显著】的含义是我们有更充分的理由来拒绝原假设,只是拒绝而已,并不代表avgX与avgY差距越大。想要探究AB组的差距大小需要用到区间估计。

6. 区间估计就是估计 avgX - avgY 可能的区间范围,这是假设检验判定了AB组有差异(p值小于0.05)之后的一个动作,置信度为1-alpha=95%的置信区间计算公式为:
(avgX - avg Y ± t值 * sqrt(X方差/n1 + Y方差/n2))
含义就是,我有95%的把握说 avgX-avgY 会落在上面的区间上

7. 我们可以看出来区间估计是一个范围,如果我们对这个范围也就是估计的精度有要求,也就是说如果我们想让这个范围小一点、精确一点,那我们就需要对样本量有一定的要求了,样本越大这个范围就越精确,但同时我们付出的时间成本越高。这就是我们在做AB测试的时候为什么总是有人提最小样本量。其实这不是一个必须的过程,只要我们对这个范围精度要求不高。一定精度要求下的最小样本量的计算公式可以查书。

8. AB测试最后得出结论A组相对于B组某指标提升了多少一般是一个区间,比如说(1.4,1.9)或者(1.5%,1.7%) 

 

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值