随机变量
均值类指标
如用户的平均使用时长、平均购买金额、平均购买频率等
当数据量足够大时,均值类指标符合正态分布
正态分布的总体方差的计算需要知道总体各个数据的值,选用t检验##
概率类指标
如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率)
概率类指标本质上服从二项分布,但当数据量足够大时,也服从正态分布
二项分布总体方差可以通过数据球的总体方差,用zj检验
概率分布
正态分布
各领域出现正态分布,如何跨领域比较
标准正态分布
均值为0,标准差为1
二项分布
中心极限定理
定理
取样样本足够大,则样本均值的分布就趋近于正态分布
样本量
当样本量大于30的就属于足够大
假设检验
假设
零假设与备则假设
零假设(H0)
假设总体参数未发生变化。即暴露、干预与结果之间没有关系
备择假设(H1)
假设总体参数发生变化。即暴露、干预与结果之间存在关系
检验
假设角度
单尾检验
可以比较大小
双尾检验
假设u1=u2,总体1的抽样均值,比2大也好,比1大也好,不要不和u1相等,就足够验证假设。基于u1=u2的假设,我们只能得出到底“有没有显著差别”的结论,得不出“谁大谁小”的结论。
样本个数
单样本检验
单样本t检验
已知样本均值与已知总体均值的差异比较
已知一个总体均数
可得到一个样本均值以及该样本标准差
样本来自正态或近似正态总体
多样本检验
A/B实验更推荐使用双样本检验
用于检验样本均值所代表的两未知总体均值差异是否存在显著性
两独立样本来自正态分布或近似正态总体
可得到两样本均数以及该样本标准差,两样本含量要求不相同
要根据方差齐性来进行独立样本t检验
配对样本检验
研究两组不同变量的观测值的均值差异,同一样本的不同变量观察之间的差异
同一受试对象接受一种处理前后的差异
两同质受试对象接受两种不同处理的差异
同一受试对象接受两种不同处理的差异
数据特征
t检验
均值类指标一般用t检验
z检验
概率类指标一般用z检验
t值多大才算合适?
p值
得到的结果是巧合大概率为多少
一般的科学研究中,通常设置p值为0.05做为阈值
t临界值:大小受到两个因素的影响
显著性水平
在双尾检验中,显著性水平为0.05
自由度
n1+n2-2
t>t临界值
证明两组之间存在显著性差异
决策
结果
第一类错误
第一类错误概率a,也成为显著性水平
置信水平=1-a
拒绝了事实上是正确的零假设,也被称为显著水平。显著水平一般为5%,置信区间为1-5%
第二类错误
第二类错误概率b
功效power=1-b
接受了事实上是错误的零假设,一般定义为20%
方法
p值法
比例z检验
proportions_ztest
t检验
ttest_ind
置信区间法
比例z检验
confint_proportions_2indep
t检验
tconfint_diff