统计学复习笔记（一）—— 抽样方法和数据的度量

最新推荐文章于 2021-11-26 16:15:59 发布

雪国_

最新推荐文章于 2021-11-26 16:15:59 发布

阅读量2.4k

点赞数 5

文章标签：统计学数据分析

本文链接：https://blog.csdn.net/weixin_46490424/article/details/104729489

版权

文章目录

复习统计学的时候记了一些笔记。

抽样方法

简单随机抽样(Simple Random Sampling)
分层抽样(Stratified Sampling)：把总体划分为相互独立的不同层，在不同个体里分别进行随机抽样。可以提高样本的代表性，因为确保从不同特征的层里都抽取了样本。比如以性别，地域，年段等进行划分。
整群抽样(Cluster Sampling): 抽取一整个群，对这个群里所有样本进行调查。比如检验一批零件，并不是直接从所有零件里抽取样本，而是先把零件划分为N盒，从N盒里随机抽取n盒，然后检验这n盒里所有零件。
系统抽样(Systematic Sampling)：把要调查的对象编号排列，先随机抽取一个数字作为起始的样本，然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本，剩下就是抽取第 $n + k ， n + 2 k ， n + 3 k . . .$ 号作为样本。

集中趋势的度量

平均数（Mean）：简单平均数，加权平均数，几何平均数

几何平均数（Geometric Mean）： $\sqrt[n]{x_1\times x_2\times...\times x_n}$ , 计算平均增长率可以用
众数（Mode）：数据的集中趋势，用在数据量较大的时候，不受数据极端值影响，但有可能不唯一
中位数（Median），适合偏斜程度较大时使用
四分位数（Quartile）：处于25%（lower quartile）和75%（upper quartile）位置上的数值

补充：左偏和右偏分布

当数据不是对称分布（Mean=Median=Mode时）：
左偏（Left Skewed，左图） 和右偏（Right Skewed，右图）：
左偏和右偏
众数就是数据最集中的那个点，也就是density的最高点；中位数把density曲线下方的面积平均分为两半；左偏是左边的尾巴长，有极小值拉低了平均值；而右偏则是右边的尾巴长，有极大值拉高了平均值。所以：

Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏

离散程度的度量

异众比率（Variation Ratio）: 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据：这个值越大，众数的代表性就越差。
四分位差（Inter-Quartile Range）:中间50%数据的离散程度。IQR=upper quartile-lower quartile。
极差（Range）
平均差（Mean Absolute Deviation）： $\frac{\sum_n |x_i-\bar{x}|}{n}$
方差（Variance），标准差（Deviation）
离散系数, 或变异系数（Coefficient of Variation）： $\frac{\sigma}{\bar{x}}$ , 当计量单位不同时使用，这个值越大说明数据越离散。

补充：数据标准化；经验法则

1）数据标准化（Standardization）： $z_i=\frac{x_i-\bar{x}}{\sigma}$ , 把平均数变为0，标准差变为1，也称为z-score。

2）当一组数据是对称分布时：

约有68%的数据在平均数±1个标准差的范围内
约有95%的数据在平均数±2个标准差的范围内
约有99%的数据在平均数±3个标准差的范围内

所以当出现在平均数三个标准差之外的数据，可以当做outlier。

当数据不是对称分布时，切比雪夫不等式：Chebyshev’s Inequality适用于任何分布的数据：

至少有 $(1-\frac{1}{k^2})$ 的数据落在±k个标准差之内（ $k\geq1$ ）。

分布形状的度量

偏态系数（Coefficient of Skewness，SK）
$SK=\frac{n\sum(x_i-\bar{x})^3}{s^2}$ , s是样本标准差。

衡量数据分布对称性。 $S K = 0$ : 对称； $S K > 0$ : 右偏； $S K < 0$ : 左偏。如果 $∣ S K ∣ > 1$ ,是高度偏态；如果 $0.5 < ∣ S K ∣ < 1$ ,是中等偏态。
峰态系数（Coefficient of Kurtosis，K）
【公式里含 $\sum(x_i-\bar{x})^4$ 】
衡量数据分布尖峰的程度。如果以3作为标准，当 $K = 3$ 是正态分布， $K > 3$ 是尖峰分布， $K < 3$ 是扁平分布。