A/B-TEST--第二辑 -- 一个bug和简单序贯AB TEST

本文探讨了在A/B测试中,不因显著性立即中断试验的合理性,介绍了简单序贯AB测试的原理,如随机游走和赌徒破产问题的类比。文章还详细阐述了如何应用此方法,包括显著性水平计算、优势分析及双侧检验,并提供了Python代码示例。
摘要由CSDN通过智能技术生成

搬运自 Evanmiller.org.

1. 结果显著则立即中断试验?Nope.

这是一个固定样本试验。

  • 假设: 样本量已经固定。
  • 正常操作:固定样本量,不中断实验,试验结束后计算结果。
Case1 Case2 Case3 Case4
200样本 不显著 不显著 显著 显著
500样本 不显著 显著 不显著 显著
结论 不显著 显著 不显著 显著

如果A、B版本无差异,则有 α \alpha α的概率认为A、B版本有显著差异(第一类错误)。
p ( 显 著 ∣ 无 差 异 ) = p ( C a s e 2 ∣ 无 差 异 ) + p ( C a s e 4 ∣ 无 差 异 ) = ( 1 − α ) α + α 2 = α p(显著|无差异)=p(Case2|无差异)+p(Case4|无差异)\\ =(1-\alpha)\alpha+\alpha^2=\alpha p()=p(Case2)+p(Case4)=(1α)α+α2=α
正常操作下,会认为结论显示的显著性水平 α \alpha α为真实的显著性水平。

  • 异常(sao)操作:达到特定的显著性水平 α \alpha α则中断实验。
Case1 Case2 Case3 Case4
200样本 不显著 不显著 显著 显著
500样本 不显著 显著 中断 中断
结论 不显著 显著 显著 显著

如果A、B版本无差异,且预先设定的显著性水平为 α \alpha α,则:
p ( 显 著 ∣ 无 差 异 ) = 1 − p ( C a s e 1 ∣ 无 差 异 ) = 1 − ( 1 − α ) 2 > α p(显著|无差异)=1-p(Case1|无差异)\\ =1-(1-\alpha)^2>\alpha p()=1p(Case1)=1(1α)2>α
因此,在两版本实际无差异时,会有比 α \alpha α更高的概率认为两个版本有显著差异。

2. 简单序贯AB TEST的应用

  • 优点:在低转换率时能够快速识别小的提升,并且允许提前停止成功的试验。
  • 缺点:无效果试验的完成时间要比固定样本试验下的时间长,但如果快速确定成功改进比缩短试验的平均持续时间更重要,则这种折衷方案可能是合理的。
2.1 原理
  • 随机游走
    如果用户被随机分配到两个组,并且两个组具有相同的转换率,那么两个组的成功转换的序列在数学上等同于一系列随机掷硬币问题。在任何时间点,构造一个变量 d d d,它表示“Head”(即改进组成功)的数量减去“Tail”(即控制组成功)的数量。随着观测值的累积,随机变量 d d d可以描述为简单的一维随机游走。若两组的转换率不相等,随机游动将倾向于偏向一个方向。

  • 赌徒破产问题

(1)问题描述:赌徒的对手有无限的tokens,赌徒有 d d d个tokens,如果赌徒猜对了正面或反面,赌徒就会从对手那里得到一个token;如果赌徒猜错了,他就会失去一个token。当赌徒用完token时,游戏结束。

(2)与AB TEST的联系:从 d = 0 d=0 d=0开始, d d d漂移到某个值 d ∗ d^* d的概率与赌徒 d ∗ d^* d个tokens减少到零的概率完全相同。因此,可用改进组与控制组成功数的差值( T − C T-C TC)来表示 d d d,而用赌徒在前 N N N轮输光 d d d个token(前 N N N个成功观测中 T − C T-C TC达到某个阈值)的概率来表示序贯AB TEST的显著性。

2.2 应用

(1)数学表达
若赌徒与对手单轮游戏的胜率相同( p 1 = p 2 = 0.5 p_1=p_2=0.5 p1=p2=0.5),则刚好在第 n n n轮,赌徒输光 d d d个tokens的概率为:
r n , d = { d n C n n + d 2 2 − n ( n + d ) % 2 = = 0 0 e l s e r_{n,d}=\left\{ \begin{array}{lcl} \frac{d}{n}C_{n}^{\frac{n+d}{2}}2^{-n} & & {(n+d)\%2==0}\\ 0 & & {else}\\ \end{array} \right. rn,d={ ndCn

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值