【AB实验学习体系】统计学基础-CSDN博客

本文链接：https://blog.csdn.net/weixin_45746689/article/details/138605506

随机变量

均值类指标

	如用户的平均使用时长、平均购买金额、平均购买频率等
		当数据量足够大时，均值类指标符合正态分布
			正态分布的总体方差的计算需要知道总体各个数据的值，选用t检验##

概率类指标

	如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率)
		概率类指标本质上服从二项分布，但当数据量足够大时，也服从正态分布
			二项分布总体方差可以通过数据球的总体方差，用zj检验

概率分布

正态分布

	各领域出现正态分布，如何跨领域比较
		标准正态分布
			均值为0，标准差为1

二项分布

中心极限定理

定理
	取样样本足够大，则样本均值的分布就趋近于正态分布
样本量
	当样本量大于30的就属于足够大

假设检验

假设

	零假设与备则假设
		零假设(H0)
			假设总体参数未发生变化。即暴露、干预与结果之间没有关系
		备择假设(H1)
			假设总体参数发生变化。即暴露、干预与结果之间存在关系

检验

假设角度

单尾检验

			可以比较大小

双尾检验

			假设u1=u2,总体1的抽样均值，比2大也好，比1大也好，不要不和u1相等，就足够验证假设。基于u1=u2的假设，我们只能得出到底“有没有显著差别”的结论，得不出“谁大谁小”的结论。

样本个数

单样本检验

			单样本t检验
				已知样本均值与已知总体均值的差异比较
					已知一个总体均数
					可得到一个样本均值以及该样本标准差
					样本来自正态或近似正态总体

多样本检验

			A/B实验更推荐使用双样本检验
			用于检验样本均值所代表的两未知总体均值差异是否存在显著性
				两独立样本来自正态分布或近似正态总体
				可得到两样本均数以及该样本标准差，两样本含量要求不相同
				要根据方差齐性来进行独立样本t检验

配对样本检验

			研究两组不同变量的观测值的均值差异，同一样本的不同变量观察之间的差异
			同一受试对象接受一种处理前后的差异
			两同质受试对象接受两种不同处理的差异
			同一受试对象接受两种不同处理的差异

数据特征

		t检验
			均值类指标一般用t检验
				
		z检验
			概率类指标一般用z检验
				
		t值多大才算合适？
			p值
				得到的结果是巧合大概率为多少
				一般的科学研究中，通常设置p值为0.05做为阈值
			t临界值：大小受到两个因素的影响
				显著性水平
					在双尾检验中，显著性水平为0.05
				自由度
					n1+n2-2
						t>t临界值
							证明两组之间存在显著性差异

决策

结果

第一类错误

			第一类错误概率a，也成为显著性水平
			置信水平=1-a
			拒绝了事实上是正确的零假设，也被称为显著水平。显著水平一般为5%，置信区间为1-5%

第二类错误

			第二类错误概率b
			功效power=1-b
			接受了事实上是错误的零假设，一般定义为20%
	方法
		p值法
			比例z检验
				proportions_ztest
			t检验
				ttest_ind
		置信区间法
			比例z检验
				confint_proportions_2indep
			t检验
				tconfint_diff