实验A/B测的统计学原理

A/B测试是通过对比实验,利用统计学方法评估产品不同版本的效果。它涉及抽样、参数估计、假设检验等统计概念,确保结果的科学性和准确性。在A/B测试中,点估计和区间估计用于估计总体参数,t检验用于确定样本均值差异的显著性。通过计算p值,判断实验结果是否显著,从而指导产品决策。在实际应用中,A/B测试广泛应用于互联网公司的产品优化、用户体验改进等领域。
摘要由CSDN通过智能技术生成

1.引言

1.1 什么是A/B测试

A/B 测试以数据驱动为导向,可以实现灵活的流量切分,使得同一产品的不同版本能同时在线,通过记录和分析用户对不同版本产生的行为数据,得到效果对比,最大程度地保证结果的科学性和准确性,从而帮助人们进行科学的产品决策

AB测的核心在于:实验人群的相似性、均匀性;单一变量原则;科学的效果评估。

1.2 A/B测试的应用场景

在这里插入图片描述

“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?”
–张一鸣

1.3 统计学在A/B测中的作用

A/B 测试是一种对比实验,而实验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。可以看出,做实验并从实验数据中得出有效结论的科学基础是统计学。

2. AB测的统计学知识

2.1 统计学的基本概念

总体:是客观存在的、具有某一共同性质的许多个体组成的整体; 总体是我们的研究对象,在对比实验中,总体就是网站/App的所有用户。

样本:所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体; 样本是我们的实验对象,在对比实验中缺省的对照版本和测试版本的用户都是样本。

参数:用来描述总体特征的概括性数字度量,称为参数,如总体平均数(μ);在对比实验中总体参数就是所有用户的某个优化指标的平均值。

统计量:用来描述样本特征的概括性数字度量,称为统计量,如样本平均数(x);在对比实验中统计量就是测试版本用户的某个优化指标的统计平均值。

均值:变量值的算数平均数。

方差:各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。

正态分布:是一种应用非常广泛的概率分布,它是下面介绍的假设检验等统计推断方法的数学理论基础。

在这里插入图片描述

所以,对比实验的工作原理就是统计对照版本和测试版本两个样本的数据(样本数量,样本平均数和方差等),通过以正态分布为基础的统计学公式进行计算,衡量测试版本的总体参数(均值)是否比对照版本的总体参数有确定性的提升。

抽样

抽样是指按照随机原则,以一定概率从总体中抽取一定容量的单位作为样本进行调查,根据样本统计量对总体参数作出具有一定可靠程度的估计与推断。

抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性,那么以样本的统计量数据来对总体参数进行估计就没有逻辑基础。

用户分流算法根据用户特征对用户进行聚类,把用户分为具有相同代表性的多个小组,然后通过随机抽样的方式得到测试版本的用户群(样本),保证了样本的代表性。

参数估计

参数估计是一种统计推断方法,用样本统计量去估计总体参数。 总体的统计指标在一定范围内以一定的概率取各种数值,从而形成一个概率分布,但是这个概率分布可能是未知的。 当总体分布类型已知(通常是正态分布),仅需对分布的未知参数进行估计的问题称为参数估计。

用来估计总体参数的统计量的名称称为估计量,如样本均值;估计量的具体数值称为估计值。参数估计方法有点估计与区间估计两种方法。

用样本估计量的值直接作为总体参数的估计值称为点估计。例如在对比实验中,缺省对照版本的优化指标均值就是对缺省版本总体的优化指标均值的一个点估计。

我们必须认识到,点估计是有误差的,样本均值不能完全代表总体均值。 在一些比较粗糙的 A/B 测试方式中,实验者得到对照版本和测试版本的均值之后,直接比较它们的大小,由此得出哪个版本更优的结论,这样的做法误差是非常大的,结论的可靠性没有保障。

点估计只能给出总体参数的一个大概值,但不能给出估计的精度。区间估计就是在点估计的基础上,给出总体参数的一个概率范围。区间估计的几个要素是点估计值、方差、样本大小以及估计的置信水平。 专业的 A/B 调试工具会通过结合这些要素的统计学公式来对结果进行科学地评估,而不是简单粗糙地比较点估计值的大小。

假设检验
从 A/B 测试的实验原理来看,它是统计学上假设检验(显著性检验)的一种形式:假设检验中的参数检验是先对总体的参数提出某种假设,然后利用样本数据判断假设是否成立的过程。。假设检验是首先对总体参数提出某种假设,然后利用样 本信息去判断这个假设是否成立的过程。

假设检验中一般要提出两种假设:

  • 原假设 (Null Hypothesis) 表示为 H0。是我们反对的假设。
  • 备择假设 (Alternative Hypothesis) 表示为 H1,是我们要收集证据去支持的假设。

举个例子
对于开启APP的用户,我们想测试弹屏A和弹屏B,哪一种带来的用户点击率和转化率更高
那么这个实验里,原假设是A和B的点击率没有差别,备择假设是点击率不同
在这里插入图片描述
当 H0 为真,拒绝 H0 – 这类错误为第一类错误,发生的概率是𝜶
当 H0 为假,没有拒绝 H0 – 这类错误为第二类错误,发生的概率是𝜷
与此对应的,判断正确的概率分别为𝟏−𝜶 和 𝟏−𝜷,如下图所示
在这里插入图片描述
实验设计的两个principle
如果实验没有效果,不要误报效果(错误的拒绝H0),误报效果的概率是第一类错误概率𝜶,一般设置为0.05
如果实验有效果,能不能把效果找到(有能力识别H1),第二类错误概率𝜷,一般设置为0.2

𝜶 和 𝜷 的关系是此消彼长。一般来说,当其他条件一定的情况下,𝜶 和 𝜷 不可能同时减 小,只能在发生两类错误中找一个平衡。而统计学家认为发生第一类错误的严重程度更高,所以假设 检验中一般先控制第一类错误𝜶。
𝜶的取值是人为给定的,也就是说我们事先要确定发生第一类错误 发生的概率。𝜶 的取值常用的是 0.05, 它对应的置信水平𝟏 − 𝜶 就为95%。

显著性水平p(p-value)

显著性水平是指在原假设为真时而被拒绝的概率或者风险,也就是发生类型一错误的概率 α。统计学上依据小概率思想:小概率思想是指小概率事件(显著性水平 p < 0.05)在一次实验中基本上不会发生。通常在 AB 测试中,我们设置显著性水平为 0.05,当求得的 p-value 即 p<=0.05,那么拒绝原假设;p>0.05,那么不能拒绝原假设。

在这里插入图片描述

统计显著性

在假设检验中,如果样本数据拒绝原假设,我们说检验的结果是显著的;反之,我们则说结果是不显著的。一项检验在统计上是“显著的”,意思是指这样的样本数据不是偶然得到的,即不是抽样的随机波动造成的,而是由内在的影响因素导致。

t 检验

常用的假设检验方法有 z 检验、t 检验和卡方检验等,不同的方法有不同的适用条件和检验目标。t 检验(Student’s t test)是用 t 分布理论来推断两个平均数差异的显著性水平。

我们的对比实验是用对照版本和测试版本两个样本的数据来对这两个总体是否存在差异进行检验,所以适合使用 t 检验方法中的独立双样本检验。

为了简化,对比实验忽略了样本大小在 30 以下的小样本情况(视为结果不显著),按大样本检验公式进行 p-value 的计算。

首先通过 t 检验公式计算出检验统计量 Z 的值:

在这里插入图片描述
x1:样本 1 均值;x2:样本 2 均值;

S1:样本 1 标准差;S2:样本 2 标准差;

n1:样本 1 大小;n2:样本 2 大小;

然后通过 t 分布(大样本情况下近似正态分布)的公式计算得出和 Z 值对应的 p 值。

在这里插入图片描述
p 值算出来之后,我们就可以根据 p 值按照前面介绍的假设检验决策规则来判断这两个样本均值的差异是否显著了。

3. A/B测的统计学应用

目前网校的A/B测平台定义了一套指标体系,覆盖了现有在用的所有指标。从计算方式上,分为率指标和均值指标;从实现方式上,分为基础指标和复合指标。

率指标:针对每一个样本,实验的取值只能是两种。比如我们观测用户在投放页面是否注册,只有两个情况:注册,没注册。这样的分布特征遵循伯努利分布。如注册人数,注册转化率等。

均值指标:针对每一个样本,实验的取值可以是随机自然数。样本足够大的情况下,样本会符合高斯分布。如购课量,人均购课量,都属于均值指标。

基础指标:指标体系中不可分割的最小指标单元,如注册用户数、订单量、PV、UV等。

复合指标:由基础指标组合而成的,典型的如转化率、注册约课率、人均购课数等。

伯努利分布:又名两点分布或0-1分布。伯努利实验是只有两种可能结果的单次随机实验,即对于一个随机变量X而言:伯努利实验都可以表达为“是或否”的问题。例如,抛一次硬币是正面向上吗?

  • 如果实验E是一个伯努利实验,将E独立重复地进行n次,则称这一串重复的独立实验为n重伯努利实验。
  • 进行一次伯努利实验,成功(X=1)概率为p(0<=p<=1),失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。

高斯指标:又名正态分布,是一个连续概率分布。以标准化后的样本均值举例。当抽样次数足够大的时候,标准化后的样本均值服从均值为 0,标准差为 1 的正态分布。

3.1 率指标的P值计算

率值指标(注册购课率)-伯努利分布

在这里插入图片描述

3.2 均值指标的P值计算

均值指标(出勤购买科目数))-高斯分布

在这里插入图片描述

3.2 指标评估方法

对于不同的指标类型,总结出以下指标评估方法:
在这里插入图片描述

3.3 复合指标P值计算

在这里插入图片描述

4. 实例

以站内高中优惠券的弹屏广告为例,以登录APP的高一高二新人进行实验,实验策略为:
在这里插入图片描述

对照组:30%的用户展示优惠券

实验组:70%的用户展示精品课

业务方选择了样本量计算式和评估指标为:
在这里插入图片描述
APP弹窗点击率是一个复合率指标,由两个基础指标计算生成。
在这里插入图片描述
根据上文中复合率指标的计算公式,APP弹窗点击率的计算如下:

n(样本量):基于基础指标63计算曝光UV

p(点击率(64)/(63)):以曝光的用户为基准,计算点击弹窗的用户占比

代入公式,计算即可求得P值。

在这里插入图片描述
P值的变化曲线为:
在这里插入图片描述
随着样本量的累积,在2019-12-21时,P值计算结果为:0.0329153335 < 0.05(显著性水平),我们认为实验结果显著,展示精品课要比展示优惠券带来的用户点击效果更好。

5. 总结

AB测本质上是站在用户的角度,帮助业务方进行产品决策。相对于经验决策来讲,它具有贴近用户真实需求、科学性等优点,可以提升方案决策的效率,降低不合理方案对用户的影响。

AB测已经在各大互联网公司得到了广泛的推广应用,网校、智康、小猴等事业部已经把AB测应用到产品改版、UI样式、搜索推荐、广告系统等场景中,业务方主要为增长团队,后续我们会逐步推广到教学场景,数据全方位赋能业务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

InceptionZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值