复习统计学的时候记了一些笔记。
抽样方法
- 简单随机抽样(Simple Random Sampling)
- 分层抽样(Stratified Sampling):把总体划分为相互独立的不同层,在不同个体里分别进行随机抽样。可以提高样本的代表性,因为确保从不同特征的层里都抽取了样本。比如以性别,地域,年段等进行划分。
- 整群抽样(Cluster Sampling): 抽取一整个群,对这个群里所有样本进行调查。比如检验一批零件,并不是直接从所有零件里抽取样本,而是先把零件划分为N盒,从N盒里随机抽取n盒,然后检验这n盒里所有零件。
- 系统抽样(Systematic Sampling):把要调查的对象编号排列,先随机抽取一个数字作为起始的样本,然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本,剩下就是抽取第 n + k , n + 2 k , n + 3 k . . . n+k,n+2k,n+3k... n+k,n+2k,n+3k...号作为样本。
集中趋势的度量
-
平均数(Mean):简单平均数,加权平均数,几何平均数
几何平均数(Geometric Mean): x 1 × x 2 × . . . × x n n \sqrt[n]{x_1\times x_2\times...\times x_n} nx1×x2×...×xn, 计算平均增长率可以用
-
众数(Mode):数据的集中趋势,用在数据量较大的时候,不受数据极端值影响,但有可能不唯一
-
中位数(Median),适合偏斜程度较大时使用
-
四分位数(Quartile):处于25%(lower quartile)和75%(upper quartile)位置上的数值
补充:左偏和右偏分布
当数据不是对称分布(Mean=Median=Mode时):
左偏(Left Skewed,左图) 和右偏(Right Skewed,右图):
众数就是数据最集中的那个点,也就是density的最高点;中位数把density曲线下方的面积平均分为两半;左偏是左边的尾巴长,有极小值拉低了平均值;而右偏则是右边的尾巴长,有极大值拉高了平均值。所以:
Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏
离散程度的度量
- 异众比率(Variation Ratio): 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据:这个值越大,众数的代表性就越差。
- 四分位差(Inter-Quartile Range):中间50%数据的离散程度。IQR=upper quartile-lower quartile。
- 极差(Range)
- 平均差(Mean Absolute Deviation): ∑ n ∣ x i − x ˉ ∣ n \frac{\sum_n |x_i-\bar{x}|}{n} n∑n∣xi−xˉ∣
- 方差(Variance),标准差(Deviation)
- 离散系数, 或变异系数(Coefficient of Variation): σ x ˉ \frac{\sigma}{\bar{x}} xˉσ, 当计量单位不同时使用,这个值越大说明数据越离散。
补充:数据标准化;经验法则
1)数据标准化(Standardization): z i = x i − x ˉ σ z_i=\frac{x_i-\bar{x}}{\sigma} zi=σxi−xˉ, 把平均数变为0,标准差变为1,也称为z-score。
2)当一组数据是对称分布时:
-
约有68%的数据在平均数±1个标准差的范围内
-
约有95%的数据在平均数±2个标准差的范围内
-
约有99%的数据在平均数±3个标准差的范围内
所以当出现在平均数三个标准差之外的数据,可以当做outlier。
当数据不是对称分布时,切比雪夫不等式:Chebyshev’s Inequality适用于任何分布的数据:
至少有 ( 1 − 1 k 2 ) (1-\frac{1}{k^2}) (1−k21)的数据落在±k个标准差之内( k ≥ 1 k\geq1 k≥1)。
分布形状的度量
-
偏态系数(Coefficient of Skewness,SK)
S K = n ∑ ( x i − x ˉ ) 3 s 2 SK=\frac{n\sum(x_i-\bar{x})^3}{s^2} SK=s2n∑(xi−xˉ)3, s是样本标准差。衡量数据分布对称性。 S K = 0 SK=0 SK=0: 对称; S K > 0 SK>0 SK>0: 右偏; S K < 0 SK<0 SK<0: 左偏。如果 ∣ S K ∣ > 1 |SK|>1 ∣SK∣>1,是高度偏态;如果 0.5 < ∣ S K ∣ < 1 0.5<|SK|<1 0.5<∣SK∣<1,是中等偏态。
-
峰态系数(Coefficient of Kurtosis,K)
【公式里含 ∑ ( x i − x ˉ ) 4 \sum(x_i-\bar{x})^4 ∑(xi−xˉ)4】
衡量数据分布尖峰的程度。如果以3作为标准,当 K = 3 K=3 K=3是正态分布, K > 3 K>3 K>3是尖峰分布, K < 3 K<3 K<3是扁平分布。
····················未完待续····················
(下集预告:一些常见的分布,和
χ
2
,
t
,
F
\chi^2, t, F
χ2,t,F distribution。