Q1、什么是辛普森悖论?为什么会出现?
辛普森悖论(Simpson’s paradox),是概率和统计中的一种现象,即一种趋势出现在几组数据中,但当这些组组合在一起时,趋势就会消失或逆转,细分的结果和整体的结果相悖,这就是我们常说的辛普森悖论。辛普森悖论主要是因为2组样本不均衡,抽样不合理,由于各组权重不一样所导致的。正确的试验实施方案里,除被测试的变量外,其他可能影响结果的变量的比例都应该保持一致,这就需要对流量进行均匀合理的分割。例如:
如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。
现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。
男生和女生的点击率虽然都增加了,但是由于点击率更高的女生所占的比例过小,未能拉动整体的点击率上升。
在分组比较中占据优势的一方,在综合评估中却成为失势的一方,该现象被称为辛普森悖论。
回避方式
为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
避免辛普森悖论的关键是要同时参考不同用户间的事实全貌。
第一,准确的用户分群在数据分析中是非常重要的,尤其是在免费产品当中,平均用户不仅不存在,而且是误导研发的因素之一,所以关键在于利用特征将用户进行合理划分。
第二,在一个具体的产品中,普适型的数据(如粗暴的对比IOS和Android总体情况)是没有多大参考意义的,一定要细分到具体设备、国家、获取渠道、消费能力等等再进行比对才有价值。
第三,斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
Q2、协方差与相关系数的区别和联系
协方差:
如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”)。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
注:
1.协方差可以反应两个变量的协同关系, 变化趋势是否一致。同向还是方向变化。
2.X变大,同时Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
3.X变大,同时Y变小,说明两个变量是反向变化的,这时协方差就是负的。
4.从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。
相关系数:
就是用X、Y的协方差除以X的标准差和Y的标准差。
研究变量之间线性相关程度的量,取值范围是[-1,1]。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
注:
1、可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。
既然相关系数是协方差除以标准差,那么,当X或Y的波动幅度变大的时候,它们的协方差会变大,标准差也会变大,这样相关系数的分子分母都变大,其实变大的趋势会被抵消掉,变小时也亦然。于是,很明显的,相关系数不像协方差一样可以在正无穷到负无穷间变化,它只能在+1到-1之间变化
Q3、AB测试统计显著但实际不显著是什么原因?
这个可能的原因是我们在AB测试当中所选取的样本量过大,导致和总体数据量差异很小,这样的话即使我们发现一个细微的差别,它在统计上来说是显著的,在实际的案例当中可能会变得不显著了。
举个栗子,对应到我们的互联网产品实践当中,我们做了一个改动,APP的启动时间的优化了0.001秒,这个数字可能在统计学上对应的P值很小,也就是说统计学上是显著的,但是在实际中用户0.01秒的差异是感知不出来的。那么这样一个显著的统计差别,其实对我们来说是没有太大的实际意义的。所以统计学上的显著并不意味着实际效果的显著。
Q4、怎么理解中心极限定理?
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。然后把这 m 组抽样分别求出平均值。这些平均值的分布接近正态分布。
当样本量 n 逐渐趋于无穷大时,n个抽样样本的均值的频数逐渐趋于正态分布,其对原总体的分布不做任何要求,意味着无论总体是什么分布,其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。
中心极限定理定义:
(1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。