统计学复习笔记(一)—— 抽样方法和数据的度量

复习统计学的时候记了一些笔记。

抽样方法

  • 简单随机抽样(Simple Random Sampling)
  • 分层抽样(Stratified Sampling):把总体划分为相互独立的不同层,在不同个体里分别进行随机抽样。可以提高样本的代表性,因为确保从不同特征的层里都抽取了样本。比如以性别,地域,年段等进行划分。
  • 整群抽样(Cluster Sampling): 抽取一整个群,对这个群里所有样本进行调查。比如检验一批零件,并不是直接从所有零件里抽取样本,而是先把零件划分为N盒,从N盒里随机抽取n盒,然后检验这n盒里所有零件。
  • 系统抽样(Systematic Sampling):把要调查的对象编号排列,先随机抽取一个数字作为起始的样本,然后按一定规则抽取其他样本。比如随机抽到了第n号作为初始样本,剩下就是抽取第 n + k , n + 2 k , n + 3 k . . . n+k,n+2k,n+3k... n+kn+2kn+3k...号作为样本。

集中趋势的度量

  • 平均数(Mean):简单平均数,加权平均数,几何平均数

    几何平均数(Geometric Mean) x 1 × x 2 × . . . × x n n \sqrt[n]{x_1\times x_2\times...\times x_n} nx1×x2×...×xn , 计算平均增长率可以用

  • 众数(Mode):数据的集中趋势,用在数据量较大的时候,不受数据极端值影响,但有可能不唯一

  • 中位数(Median),适合偏斜程度较大时使用

  • 四分位数(Quartile):处于25%(lower quartile)和75%(upper quartile)位置上的数值

补充:左偏和右偏分布

当数据不是对称分布(Mean=Median=Mode时):
左偏(Left Skewed,左图)右偏(Right Skewed,右图)
左偏和右偏
众数就是数据最集中的那个点,也就是density的最高点;中位数把density曲线下方的面积平均分为两半;左偏是左边的尾巴长,有极小值拉低了平均值;而右偏则是右边的尾巴长,有极大值拉高了平均值。所以:

Mean<Median<Mode: 左偏
Mode<Median<Mean: 右偏

离散程度的度量

  • 异众比率(Variation Ratio): 用在分类数据中。非众数组的counts占总的counts。衡量众数能不能代表一组数据:这个值越大,众数的代表性就越差。
  • 四分位差(Inter-Quartile Range):中间50%数据的离散程度。IQR=upper quartile-lower quartile。
  • 极差(Range)
  • 平均差(Mean Absolute Deviation) ∑ n ∣ x i − x ˉ ∣ n \frac{\sum_n |x_i-\bar{x}|}{n} nnxixˉ
  • 方差(Variance),标准差(Deviation)
  • 离散系数, 或变异系数(Coefficient of Variation) σ x ˉ \frac{\sigma}{\bar{x}} xˉσ, 当计量单位不同时使用,这个值越大说明数据越离散。

补充:数据标准化;经验法则

1)数据标准化(Standardization) z i = x i − x ˉ σ z_i=\frac{x_i-\bar{x}}{\sigma} zi=σxixˉ, 把平均数变为0,标准差变为1,也称为z-score

2)当一组数据是对称分布时:

  • 约有68%的数据在平均数±1个标准差的范围内

  • 约有95%的数据在平均数±2个标准差的范围内

  • 约有99%的数据在平均数±3个标准差的范围内

    所以当出现在平均数三个标准差之外的数据,可以当做outlier

当数据不是对称分布时,切比雪夫不等式:Chebyshev’s Inequality适用于任何分布的数据:

至少有 ( 1 − 1 k 2 ) (1-\frac{1}{k^2}) (1k21)的数据落在±k个标准差之内( k ≥ 1 k\geq1 k1)。

分布形状的度量

  • 偏态系数(Coefficient of Skewness,SK)
    S K = n ∑ ( x i − x ˉ ) 3 s 2 SK=\frac{n\sum(x_i-\bar{x})^3}{s^2} SK=s2n(xixˉ)3, s是样本标准差。

    衡量数据分布对称性。 S K = 0 SK=0 SK=0: 对称 S K > 0 SK>0 SK>0: 右偏 S K < 0 SK<0 SK<0: 左偏。如果 ∣ S K ∣ > 1 |SK|>1 SK>1,是高度偏态;如果 0.5 < ∣ S K ∣ < 1 0.5<|SK|<1 0.5<SK<1,是中等偏态

  • 峰态系数(Coefficient of Kurtosis,K)
    【公式里含 ∑ ( x i − x ˉ ) 4 \sum(x_i-\bar{x})^4 (xixˉ)4
    衡量数据分布尖峰的程度。如果以3作为标准,当 K = 3 K=3 K=3是正态分布, K > 3 K>3 K>3是尖峰分布, K < 3 K<3 K<3是扁平分布。

····················未完待续····················
(下集预告:一些常见的分布,和 χ 2 , t , F \chi^2, t, F χ2,t,F distribution。

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值