数据分析+统计的知识点
A/B Testing
A/B 测试是促进业务持续增长的最实用、最有效的方式。
主要是实验组和对照组的对比,观察(A/B差别的显著性)是否符合统计上的显著和业务上的显著。
产品迭代流程
产品 / 业务迭代的流程大概分为 3 步:
- 具体的业务问题催生出迭代的想法,比如出现业务问题后,团队会提出具体的迭代方案;
- 团队论证方案的可行性和效果;
- 论证完成后,具体实施迭代方案。
棣莫弗—拉普拉斯中心极限定理
棣莫弗—拉普拉斯中心极限定理(De Moivre-Laplace),即二项分布以正态分布为其极限分布定律。
中心 极限定理
不管是什么概率分布,只要样本数据量足够大,样本 统计量近似服从 正态分布
中心极限定理在A/B测试中的应用
中心极限定理是概率论中最重要的一类定理,它支撑着和置信区间相关的T检验和假设检验的计算公式和相关理论。如果没有这个定理,之后的推导公式都是不成立的。
事实上,以上对于中心极限定理的两种解读,在不同的场景下都可以对A/B测试的指标置信区间判定起到一定作用。
- 对于属于正态分布的指标数据,我们可以很快捷地对它进行下一步假设检验,并推算出对应的置信区间;
- 而对于那些不属于正态分布的数据,根据中心极限定理,在样本容量很大(>30)时,总体参数的抽样分布是趋向于正态分布的,最终都可以依据正态分布的检验公式对它进行下一步分析。
幂律分布
统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即,系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化,有竞争的地方都会出现不同程度的无标度现象。
指标的统计属性
- 均值类的指标,比如用户的平均使用时长、平均购买金额、平均购买频率,等等。
- 概率类的指标,比如用户点击的概率(点击率)、转化的概率(转化率)、购买的概率(购买率),等等。
在数量足够大时,均值类指标服从正态分布;概率类指标本质上服从二项分布,但当数量足够大时,也服从正态分布。
假设检验
Null Hypothesis
Alternative Hypothesis
- 零假设是,实验组和对照组的点击率是相同的。
- 备择假设是,实验组和对照组的点击率是不同的。
在 A/B 测试的实践中,更推荐使用双尾检验。
T检验和Z检验
根本是,方差是否知道。
不知道,就用样本反差估计总体方差,然后用t检验,但是在现在的大数据时代,基本上只要样本量>30就可以认为Z和T检验是一样的。
第一类错误 a
假阳性概率
误诊
第二类错误 b
假阴性概率
漏诊
把握度power
1-b = 不漏的概率
P值
当零假设成立,观测到对照组和实验组不同的概率。
同比和环比
同比」
与历史「同时期]比较,例如2011年3月份与2010年3月份相比,叫「同比」。
环比」
与「上一个」统计周期比较,例如2011年4月份与2011年3月份相比较,称为「环比」。
波士顿矩阵
波士顿矩阵将产品类型分为四种:
1,明星类产品:高增长且高市占,发展前景好,竞争力强,需加大投资以支持其发展;
2,问题类产品:高增长但低市占,发展前景好但市场开拓不足,需谨慎投资;
3,现金牛产品:低增长但高市占,成熟市场的领导者,应降低投资,维持市占并延缓衰退;
4,瘦狗类产品:低增长且低市占,理论率低甚至亏损,应采取撤退战略。