偏态分布

一、总体介绍:

频数分布有正态分布和偏态分布之分。
正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。
偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值与平均值不相等的频率分布。
若集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。

峰左移,右偏,正偏

峰右移,左偏,负偏

性质:

1、当总体分布呈对称状态时,中位数=平均数

2、当总体分布呈右偏态状态时,说明存在极大值,会把平均值向极大值方向拉,中位数<平均数

3、当总体分布呈左偏态状态时,说明存在极小值,会把平均值向极小值方向拉,中位数>平均数

偏态分布只有满足一定的条件(如样本例数够大等)才可以看做近似正态分布。

 

与正态分布相对而言,偏态分布有两个特点

  一是左右不对称(即所谓偏态);

  二是当样本增大时,其均数趋向正态分布。

 

二、加深理解:

偏态,即相对于均值左右数据的多少。
右偏就是,数据在均值左侧的数量较多,所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)
既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)
另外,我认为右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。
所以就有众小于中小于均

 

三、全面概括:

偏度这一指标,又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其它所有的数据完全以对称的方式左右分布。
    如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无它。
    考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。
    一般将偏度定义为三阶中心矩与标准差的三次幂之比。在上述定义下,偏度系数的取值无非三种情景
    1.当数据序列呈正态分布的时候,由于均值两侧的数据完全对称分布,其三阶中心矩必定为零,于是满足正态分布的数据序列的偏度系数必定等于0。
    2.当数据序列非对称分布的时候,如果均值的左侧数据较多,则其右侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取正值。因此,当数据的分布呈右偏的时候,其偏度系数将大于0。
    3.当数据序列非对称分布的时候,如果均值的右侧数据较多,则其左侧的“离群”数据对三阶中心矩的计算结果影响至巨,乃至于三阶中心矩取负值。因此,当数据的分布呈左偏的时候,偏度系数将小于0。
    在右偏的分布中,由于大部分数据都在均值的左侧,且均值的右侧存在“离群”数据,这就使得分布曲线的右侧出现一个长长的拖尾;而在左偏的分布中,由于大部分数据都在均值的右侧,且均值的左侧存在“离群”数据,从而造成分布曲线的左侧出现一个长长的拖尾。

    可见,在偏度系数的绝对值较大的时候,最有可能的含义是“离群”数据离群的程度很高(很大或很小),亦即分布曲线某侧的拖尾很长。但“拖尾很长”与“分布曲线很偏斜”不完全等价。例如,也不能排除在数据较少的那一侧,只是多数数据的离差相对于另一侧较大,但不存在明显“离群”数据的情景。所以,为准确判断分布函数的偏斜程度,最好的办法是直接观察分布曲线的几何图形。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值