笔记:《深入浅出统计学》第二、三章:集中趋势、分散性与变异性

第二章:集中趋势的度量——均值、中位数、众数

1.均值μ

  • 存在异常值时会偏离大部分数据所在的位置;
  • 数据非常对称,且呈现一种趋势时使用

2.中位数

  • 从小到大排序在最中间的值,不受异常值影响,数值对称时等于均值,但随数据量增大会降低参考价值;
  • 在数据由于异常值而发生偏移时使用;当右边线比较长时,数据向右偏斜,均值大于中位数。

3.众数

  • 频数最大,且必须是数据集中的数值;是唯一能用于类别数据的平均数。
  • 遇到类别数据时使用、当数据可以分为多个组时使用。

第三章:分散性与变异性(全距/分位距、方差/标准差/标准分)

1.分散性

全距(极差):
  • 作用:用于量度数据集的分散程度,算法为max-min
  • 局限性:仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。如果数据中存在异常值,全距会极具误导性。
分位距:
  • 利用四分位距剔除异常值:50%中间数值形成的一个间距,四分位距=上四分位数-下四分位数,一个不受异常值影响的“迷你距”。
    – 上四分位数:当n/4结果为整数时,下四分位数等于n/4位置和下一个位置的中间,取这两个数值的均值;当n/4不为整数,n/4结果进一法所得即为上四分位数的位置。
    – 下四分位数(第三四分位数):3n/4同理
  • 百分位数,第k百分位Pk表示位于数据范围k%处的数值。
  • 箱形图(箱线图),箱显示四分位数和四分位距的位置,线显示上下界。能在一张图上体现多批数据,有利于比较。

2.变异性

方差和标准差通过观察数值与均值的距离量度数值的分布形态。

方差σ2
  • 数值与均值距离的平方的均值。σ2=Σ(x-μ)2/n
  • 速算法:σ2=(Σx2)/n-μ2
标准差σ:

粗略描述平均情况下数值与均值的距离。

标准分z:
  • 将数据集转换成一个均值为0、标准差为1的新分布,这是一种可用于进行比较的通用分布。
  • 以标准差为单位,计算原始分数和总体均值之间的距离。
  • 算法:z=(x-μ)/σ

https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%88%86%E6%95%B0/1694868?fr=aladdin

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值