数据分析面试（一）统计基础篇

老衲要学习

已于 2022-08-08 20:45:17 修改

阅读量498

点赞数

分类专栏：概率论文章标签：数据分析概率论数据挖掘

于 2022-08-05 21:33:15 首次发布

本文链接：https://blog.csdn.net/weixin_46180132/article/details/126181317

版权

概率论专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 常问的统计学概念。

假设检验：假设就是对从总体参数(均值、比例等)的具体数值所作的陈述。比如，我认为方案一比方案二更优。而假设检验就是先对总体的参数提出某种假设，然后利用样本的信息判断假设是否成立的过程，比如上面的假设信息我该接受还是拒绝。
显著性水平：原假设为真时，拒绝原假设的概率，表示为α，常取值为0.05、0.01、0.10。例如一个公司招聘，本来准备招聘100个人，公司希望只有5%的人是混水摸鱼招聘进来，所以可能会有5个人混进来，所谓显著性水平α，就是你允许有多少比例混水摸鱼的能通过测试。可以理解为不期望样本的范围。
原假设与备选假设：待检验的假设称为原假设（0假设），记为H0。原假设一般表示两者间没有显著性差异；与之对应的为备选假设，记为H1。
原假设为没有确凿证据一般不推翻的假设
检验统计量：计算检验的统计量。根据给定的显著性水平，查表获得相应临界值。将检验统计量的值与临界值对比，得出是否拒绝原假设的结论。
P值：如果原假设为真，p值是抽样分布中大于或小于样本统计量的概率。左检验时，p值为曲线上方小于等于检验统计量部分的面积。右检验时，p值为曲线上方大于等于检验统计量部分的面积。
假设检验的两种错误（I类错误和II类错误）：也就是弃真取伪（α，β）。
刑法角度：H0：没犯罪；H1：犯罪。
有罪推定（弃真，没犯罪就抓了）和疑罪从无（取伪，犯了罪但没抓）。可见弃真错误更为严重。
如何平衡这两类错误：我们要尽可能地将犯两类错误的概率降到最低。但是，在样本容量固定的前提下，减少犯第I类错误的概率，必然会增加犯第II类错误的概率，一般来说，我们总是先控制犯第I类错误的概率，使它不大于显著性水平。而犯第II类错误的概率依赖于样本容量的大小，因此对样本容量的选择上，也要有所考量。
左检验与右检验与双边检验

在这里插入图片描述

3σ法

在这里插入图片描述

2. t 检验。

t 检验：亦称student t检验（Student’s t test），主要用于样本含量较小（例如n<30），总体标准差σ未知的正态分布。t 检验可分为单总体检验和双总体检验，以及配对样本检验。

单总体检验：
单总体 t 检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。

$t=({\bar{X}-\mu_0})/({S/\sqrt{n}})$
其中，样本均值 $\bar{X}$ ，总体均值 $\mu$ ，样本标准差为 $S$ ，总体均值 $\bar{X}$ .

该统计量 t 在零假说：μ=μ0为真的条件下服从自由度 $v = n - 1$ 的 t 分布。

适用范围：
(1) 已知一个总体均数而不知总体标准差；
(2) 可得到一个样本均数及该样本标准查；
(3) 样本来自正态或近似正态总体。
双总体检验：
双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况，一是独立样本t检验（各实验处理组之间毫无相关存在，即为独立样本），该检验用于检验两组非相关样本被试所获得的数据的差异性；一是配对样本t检验，用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性，这两种情况组成的样本即为相关样本。

样本独立 t 检验（AB test）: $(\bar{X_1}-\bar{X_2}) / (\sqrt(\frac{(n_1-1)S_1^2+(n_2-1)S_2^2} {n_1+n_2-2}*\sqrt(\frac{1}{n_1} +\frac{1}{n_2}))$