数据探索:关于describe函数的统计量解释

刚开始用describe时并不是很理解,计算出的诸多统计量到底在数据中都能说明写什么,持续的学习中终于开始明白,选择把它记录下来,该篇文章仅为自己的理解。

第一个描述性统计表
如上图,这是一般使用 describe 之后出来的 描述性统计 的结果,下面分统计量进行解释。

count

count是计数,不是计有多少个数,而是计有多少个非空的数。可以发现,这四个特征的count均是400,且查看数据行列是,行数也为400,因此,这一份数据并没有缺失值的存在。

mean

数据的数值过大易影响模型建立时的偏好,均值可以很好的帮助发现,哪些数值的量纲是过大的,根据需要可以选择不同的标准化方法处理数据。

std

此项是标准差,与方差类同,通过标准差可以查看数据的波动情况。同时,数据的量纲越大,所计算的标准差也会越大。而波动大,可以说明这个特征包含了与模型比较有用的信息,若标准差为0,该特征则是对模型建立没有作用,可以考虑剔除。

max、min与四分位数

最大、最小值与四分位数,其实就是将数据划分为了四等份,结合中位数、上四分位数、下四分位数看最大、最小值,若发现最大值 / 最小值相较四分位数太大 / 太小,则数据有可能存在异常值,可以再通过绘制箱线图的方式进一步分析出异常值点。
若发现max、min与四分位数都是整数,可以使用value_counts查看一下该特征的数值情况,是类别型的数据可以考虑做独热编码(哑变量)处理。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值