实验A/B测的统计学原理_ab test在统计学上的原理-CSDN博客

本文链接：https://blog.csdn.net/weixin_44441131/article/details/119383796

A/B测试是通过对比实验，利用统计学方法评估产品不同版本的效果。它涉及抽样、参数估计、假设检验等统计概念，确保结果的科学性和准确性。在A/B测试中，点估计和区间估计用于估计总体参数，t检验用于确定样本均值差异的显著性。通过计算p值，判断实验结果是否显著，从而指导产品决策。在实际应用中，A/B测试广泛应用于互联网公司的产品优化、用户体验改进等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.引言

1.1 什么是A/B测试

A/B 测试以数据驱动为导向，可以实现灵活的流量切分，使得同一产品的不同版本能同时在线，通过记录和分析用户对不同版本产生的行为数据，得到效果对比，最大程度地保证结果的科学性和准确性，从而帮助人们进行科学的产品决策。

AB测的核心在于：实验人群的相似性、均匀性；单一变量原则；科学的效果评估。

1.2 A/B测试的应用场景

在这里插入图片描述

“头条发布一个新APP，其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定，张一鸣告诉同事：哪怕你有99.9%的把握那是最好的一个名字，测一下又有神马关系呢？”
–张一鸣

1.3 统计学在A/B测中的作用

A/B 测试是一种对比实验，而实验就是从总体中抽取一些样本进行数据统计，进而得出对总体参数的一个评估。可以看出，做实验并从实验数据中得出有效结论的科学基础是统计学。

2. AB测的统计学知识

2.1 统计学的基本概念

总体：是客观存在的、具有某一共同性质的许多个体组成的整体；总体是我们的研究对象，在对比实验中，总体就是网站/App的所有用户。

样本：所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体；样本是我们的实验对象，在对比实验中缺省的对照版本和测试版本的用户都是样本。

参数：用来描述总体特征的概括性数字度量，称为参数，如总体平均数(μ)；在对比实验中总体参数就是所有用户的某个优化指标的平均值。

统计量：用来描述样本特征的概括性数字度量，称为统计量，如样本平均数(x)；在对比实验中统计量就是测试版本用户的某个优化指标的统计平均值。

均值：变量值的算数平均数。

方差：各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。

正态分布：是一种应用非常广泛的概率分布，它是下面介绍的假设检验等统计推断方法的数学理论基础。

在这里插入图片描述

所以，对比实验的工作原理就是统计对照版本和测试版本两个样本的数据（样本数量，样本平均数和方差等），通过以正态分布为基础的统计学公式进行计算，衡量测试版本的总体参数(均值)是否比对照版本的总体参数有确定性的提升。

抽样

抽样是指按照随机原则，以一定概率从总体中抽取一定容量的单位作为样本进行调查，根据样本统计量对总体参数作出具有一定可靠程度的估计与推断。

抽样最重要的问题是抽取的样本是否能够代表总体。如果样本没有代表性，那么以样本的统计量数据来对总体参数进行估计就没有逻辑基础。

用户分流算法根据用户特征对用户进行聚类，把用户分为具有相同代表性的多个小组，然后通过随机抽样的方式得到测试版本的用户群（样本），保证了样本的代表性。

参数估计

参数估计是一种统计推断方法，用样本统计量去估计总体参数。总体的统计指标在一定范围内以一定的概率取各种数值，从而形成一个概率分布，但是这个概率分布可能是未知的。当总体分布类型已知（通常是正态分布），仅需对分布的未知参数进行估计的问题称为参数估计。

用来估计总体参数的统计量的名称称为估计量，如样本均值；估计量的具体数值称为估计值。参数估计方法有点估计与区间估计两种方法。

用样本估计量的值直接作为总体参数的估计值称为点估计。例如在对比实验中，缺省对照版本的优化指标均值就是对缺省版本总体的优化指标均值的一个点估计。

我们必须认识到，点估计是有误差的，样本均值不能完全代表总体均值。在一些比较粗糙的 A/B 测试方式中，实验者得到对照版本和测试版本的均值之后，直接比较它们的大小，由此得出哪个版本更优的结论，这样的做法误差是非常大的，结论的可靠性没有保障。

点估计只能给出总体参数的一个大概值，但不能给出估计的精度。区间估计就是在点估计的基础上，给出总体参数的一个概率范围。区间估计的几个要素是点估计值、方差、样本大小以及估计的置信水平。专业的 A/B 调试工具会通过结合这些要素的统计学公式来对结果进行科学地评估，而不是简单粗糙地比较点估计值的大小。

假设检验
从 A/B 测试的实验原理来看，它是统计学上假设检验（显著性检验）的一种形式：假设检验中的参数检验是先对总体的参数提出某种假设，然后利用样本数据判断假设是否成立的过程。。假设检验是首先对总体参数提出某种假设，然后利用样本信息去判断这个假设是否成立的过程。

假设检验中一般要提出两种假设:

原假设 (Null Hypothesis) 表示为 H0。是我们反对的假设。
备择假设 (Alternative Hypothesis) 表示为 H1，是我们要收集证据去支持的假设。

举个例子
对于开启APP的用户，我们想测试弹屏A和弹屏B，哪一种带来的用户点击率和转化率更高
那么这个实验里，原假设是A和B的点击率没有差别，备择假设是点击率不同
在这里插入图片描述
当 H0 为真，拒绝 H0 – 这类错误为第一类错误，发生的概率是𝜶
当 H0 为假，没有拒绝 H0 – 这类错误为第二类错误，发生的概率是𝜷
与此对应的，判断正确的概率分别为𝟏−𝜶 和 𝟏−𝜷，如下图所示
在这里插入图片描述
实验设计的两个principle
如果实验没有效果，不要误报效果（错误的拒绝H0），误报效果的概率是第一类错误概率𝜶，一般设置为0.05
如果实验有效果，能不能把效果找到（有能力识别H1），第二类错误概率𝜷，一般设置为0.2

𝜶 和 𝜷 的关系是此消彼长。一般来说，当其他条件一定的情况下，𝜶 和 𝜷 不可能同时减小，只能在发生两类错误中找一个平衡。而统计学家认为发生第一类错误的严重程度更高，所以假设检验中一般先控制第一类错误𝜶。
𝜶的取值是人为给定的，也就是说我们事先要确定发生第一类错误发生的概率。𝜶 的取值常用的是 0.05，它对应的置信水平𝟏 − 𝜶 就为95%。

显著性水平p(p-value)

显著性水平是指在原假设为真时而被拒绝的概率或者风险，也就是发生类型一错误的概率 α。统计学上依据小概率思想：小概率思想是指小概率事件（显著性水平 p < 0.05）在一次实验中基本上不会发生。通常在 AB 测试中，我们设置显著性水平为 0.05，当求得的 p-value 即 p<=0.05，那么拒绝原假设；p>0.05，那么不能拒绝原假设。

在这里插入图片描述