数据探索：关于describe函数的统计量解释

最新推荐文章于 2023-08-01 09:00:00 发布

weixin_47478808

最新推荐文章于 2023-08-01 09:00:00 发布

阅读量2k

点赞数

文章标签： python pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47478808/article/details/120545056

版权

刚开始用describe时并不是很理解，计算出的诸多统计量到底在数据中都能说明写什么，持续的学习中终于开始明白，选择把它记录下来，该篇文章仅为自己的理解。

第一个描述性统计表
如上图，这是一般使用 describe 之后出来的描述性统计的结果，下面分统计量进行解释。

count

count是计数，不是计有多少个数，而是计有多少个非空的数。可以发现，这四个特征的count均是400，且查看数据行列是，行数也为400，因此，这一份数据并没有缺失值的存在。

mean

数据的数值过大易影响模型建立时的偏好，均值可以很好的帮助发现，哪些数值的量纲是过大的，根据需要可以选择不同的标准化方法处理数据。

std

此项是标准差，与方差类同，通过标准差可以查看数据的波动情况。同时，数据的量纲越大，所计算的标准差也会越大。而波动大，可以说明这个特征包含了与模型比较有用的信息，若标准差为0，该特征则是对模型建立没有作用，可以考虑剔除。

max、min与四分位数

最大、最小值与四分位数，其实就是将数据划分为了四等份，结合中位数、上四分位数、下四分位数看最大、最小值，若发现最大值 / 最小值相较四分位数太大 / 太小，则数据有可能存在异常值，可以再通过绘制箱线图的方式进一步分析出异常值点。
若发现max、min与四分位数都是整数，可以使用value_counts查看一下该特征的数值情况，是类别型的数据可以考虑做独热编码（哑变量）处理。

weixin_47478808

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据探索：关于describe函数的统计量解释

用describe并不是很理解，计算出的诸多统计量到底在数据中都能说明写什么，持续的学习中终于开始明白，选择把它记录下来，该篇文章仅为自己的理解。如上图，这是一般使用 describe 之后出来的描述性统计的结果，下面分统计量进行解释。countcount是计数，不是计有多少个数，而是计有多少个非空的数。可以发现，这四个特征的count均是400，且查看数据行列是，行数也为400，因此，这一份数据并没有缺失值的存在。mean数据的数值过大易影响模型建立时的偏好，均值可以很好的帮助发现，哪些数
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。