数分面经整理

山路桥直

已于 2024-04-21 15:07:13 修改

阅读量195

点赞数

分类专栏：面经复盘文章标签：面试

于 2022-01-23 20:53:39 首次发布

本文链接：https://blog.csdn.net/zdzzzzz/article/details/122622309

版权

本文介绍了数据分析面试中的关键概念，包括辛普森悖论的解释及其避免方法，广告投放策略，A/B测试的原理与应用，以及统计检验如T检验、F检验和卡方检验。同时，探讨了机器学习评估指标和数据倾斜问题，强调了正确理解和应用这些工具在数据分析中的重要性。

摘要由CSDN通过智能技术生成

文章目录

广告投放：关注一些指标即可以拆解来看，企业侧：可以同类产品比较来判断/本身的创意设计/产品因素/以及是否与投放目标匹配//ROI/CAC，APP侧：最直接漏斗分析/不同的资源位/时间段，用户侧：搜索行为/分层/uplift model增量估计/用户打标或拆解/归因分析（和行业比或和自己最好的那批用户比）
（a）硬广：我告诉你啊，这个XXXXXXX就是好，就是棒就是屌炸天，你快来买买买，这么便宜不买还是人？人生苦短看上就买啊，骚年不要犹豫了，快买吧！（b）软广：我昨天晚上发现我女朋友跟着一个男的在逛街，他们搂搂抱抱非常亲密，我很生气，就慢慢尾随着他们走，结果发现他们走进了如家宾馆，我非常生气，用力一摔摔碎了我的苹果IP6plus，我就去XXXXX家修好了我的手机，你还别说，换的跟新的一样，还便宜好几十块呢！还送了一个钢化玻璃膜
辛普森悖论：在某个条件下的两组数据，分别讨论时都会满足某种性质，可是一旦合并讨论，却可能导致相反的结论。
- 上面例子说明，简单的将分组资料相加汇总，是不一定能反映真实情况的。就上述例子录取率与性别来说，导致辛普森悖论有两个前提。(1) 两个分组的录取率相差很大，就是说法学院录取率9.2%很低，而商学院53.3%却很高，另一方面，两种性别的申请者分布比重却相反，女生偏爱申请商学院，故商学院女生申请比率占83.3%，相反男生偏爱申请法学院，因此法学院女生申请比率只占16.7%。结果在数量上来说，录取率低的法学院，因为女生申请为数少，所以不录取的女生相对很少。而录取率很高的商学院虽然录取了很多男生，但是申请者却不多。使得最后汇总的时候，女生在数量上反而占优势。(2) 性别并非是录取率高低的唯一因素，甚至可能是毫无影响的，至于在法商学院中出现的比率差可能是属于随机事件，又或者是其他因素作用，譬如学生入学成绩却刚好出现这种录取比例，使人牵强地误认为这是由性别差异而造成的。
- 回避方式：为了避免辛普森悖论出现，就需要斟酌个别分组的权重，以一定的系数去消除以分组资料基数差异所造成的影响，同时必需了解该情境是否存在其他潜在要因而综合考虑。
- 辛普森悖论就像是欲比赛100场篮球以总胜率评价好坏，于是有人专找高手挑战20 场而胜1场，另外80场找平手挑战而胜40场，结果胜率41%，另一人则专挑高手挑战80场而胜8场，而剩下20场平手打个全胜，结果胜率为28%，比 41%小很多，但仔细观察挑战对象，后者明显较有实力。总结：量与质是不等价的，无奈的是量比质来得容易量测，所以人们总是习惯用量来评定好坏，而此数据却不是重要的。
（a）大数定理（样本均值收敛到总体均值）：在相同条件下大量重复进行一种随机实验时，一件事情发生的次数与实验次数的比值，即该事件发生的频率值会趋近于某一数值。一般大数定律讨论的是n个随机变量平均值的稳定性（b）中心极限定理（当样本足够大时，样本均值的分布会慢慢变成正态分布）：在很一般的条件下，n个随即变量的和当n趋近于正无穷时的极限分布是正态分布
参数估计：矩估计（抽样的期望等于总体的期望，求分布的参数）、最大似然估计（概率相乘取对数求导=0）、区间估计
T检验、F检验、卡方检验（统计中的检验大多想要根据小量样本推测整体，查对应P值时还要参考自由度，即可以选择的个数）。P值则主要用来判断结果是否置信。
- T检验：主要用于样本含量较小（例如n < 30），总体标准差σ未知的正态分布（中心极限定理）。用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著（如一组样本和整体样本的均值是否一致）