偏度和峰度存在的意义

1 代码

import scipy.stats as st
st.skew(data) # 计算偏度
st.kurtosis(data) # 计算峰度

2 为什么要处理偏斜数据

因为许多统计测试和机器学习模型都依赖于正态性假设。 因此,严重偏斜意味着数据不正常,并且可能会影响您的统计测试或机器学习预测能力。

  • 如果偏度在-0.5到0.5之间,则数据是相当对称的(正态分布);
  • 如果偏斜度在-1和-0.5之间(负偏度)或0.5和1之间(正偏度),则数据偏斜;
  • 如果偏斜度小于-1(负偏度)或大于1(正偏度),则数据高度偏斜;

3 处理偏斜数据的一些常用技术

在这种情况下,我们需要转换数据以使其正常。 用于处理偏斜数据的一些常用技术:

  • Log transformation
  • Square root transformation
  • Power transformation
  • Exponential transformation
  • Box-Cox transformation
  • etc

4 峰度的意义

“峰度”是对实值随机变量的概率分布的“尾部”度量。 通常用于标识给定数据集中的异常值(极值)。 由于用于识别离群值,因此使用尾部两端的极值进行分析。

  • 常态峰 Mesokurtic (峰度=3)-此分布显示峰度3接近零。 极值(离群值)的分布与正态分布相似。
  • 尖峰的 Leptokurtic (峰值>3)-这种分布显示出比Mekokurtic更大的峰度。 该峰比中胚层更高且更尖锐。 它的两边都有粗尾,表明离群值较大。 在投资世界中,尖峰的发行意味着它是高风险的投资。
  • 低峰态 Platykurtic:(峰值<3)-此分布显示峰度比中侧偏低。 该峰比中胚层低且宽。 它的两侧均显示平坦的尾巴,表示离群值较小。 在投资世界中,platykurtic发行意味着它是一种低风险的投资。
    在这里插入图片描述
  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值