首先,统计学就不是拿来分析业务问题的,
统计学的核心是:用小样本抽样反推整体情况,进而进行整体情况比较的,这也是为啥统计学最大篇幅,都在讲概率,抽样概率,单总体假设检验,双总体假设检验,方差分析(多总体比均值),包括统计学讲回归分析,用的也是方差分析的检验思路,还在在用小总体推整体 因此整个统计学,最适合的应用场景就是质量检测,比如卖鸡腿的厂家,要检查鸡腿质量,要拆开鸡腿包装,会导致产品损坏,所以不能100%检查,必须抽样,那么一系列的问题就来了:
1)抽多少样本
2)要不要分层
3)控制哪些变量
4)如何用抽样检出率反推整体合格率
5)为啥我抽了10包,就有3包有问题,是不是整体有大问题
6)两次抽样间差异该如何解读 你看,统计学完美应用,可以说,企业里的质检员是统计学水平最高的……
当然,互联网场景下用的最多的是ABtest,因为也是通过小样本抽样反推总体情况,特别是,很多ABtest差异很小,比如页面转化率差异在0.5%,但是页面流量又非常大,比如1000万,1000万*0.5%差异还是挺大的,这时候最好做个假设检验 至于其他方法,应用场景几乎没有,本质上看,这些方法就不是用来解决商业问题的,当年fisher博士搞现代统计学,就是为了研究种豆子,哪些豆子受土壤,气候,浇水影响。而做生意它不是种豆子,特别是用户层面,我们的营销都在鼓励用户非理性消费,都在喊:错过今天机会,可能用户消费就是非理性的,数据量化都没有,还套啥模型。
具体到操作层面: 主成分分析:在压缩特征的时候,把业务含义也压缩掉了,所以不好用
聚类:以kmean为例,聚类分类结果没有业务含义,聚类中心一换结果跟着变,没法使用
回归分析:可以拿来简单预测,但是无法对业务行为做出解释(比如我开个销售动员大会,销售群情激奋,怎么衡量群情激奋对销售额影响),所以一般也没啥用处 真想充分运用统计学,可以多研究下生产线/农业的场景哈,生产线上指标多,客观性强,需要抽样,大量依赖统计学