刚开始用describe时并不是很理解,计算出的诸多统计量到底在数据中都能说明写什么,持续的学习中终于开始明白,选择把它记录下来,该篇文章仅为自己的理解。
如上图,这是一般使用 describe 之后出来的 描述性统计 的结果,下面分统计量进行解释。
count
count是计数,不是计有多少个数,而是计有多少个非空的数。可以发现,这四个特征的count均是400,且查看数据行列是,行数也为400,因此,这一份数据并没有缺失值的存在。
mean
数据的数值过大易影响模型建立时的偏好,均值可以很好的帮助发现,哪些数值的量纲是过大的,根据需要可以选择不同的标准化方法处理数据。
std
此项是标准差,与方差类同,通过标准差可以查看数据的波动情况。同时,数据的量纲越大,所计算的标准差也会越大。而波动大,可以说明这个特征包含了与模型比较有用的信息,若标准差为0,该特征则是对模型建立没有作用,可以考虑剔除。
max、min与四分位数
最大、最小值与四分位数,其实就是将数据划分为了四等份,结合中位数、上四分位数、下四分位数看最大、最小值,若发现最大值 / 最小值相较四分位数太大 / 太小,则数据有可能存在异常值,可以再通过绘制箱线图的方式进一步分析出异常值点。
若发现max、min与四分位数都是整数,可以使用value_counts
查看一下该特征的数值情况,是类别型的数据可以考虑做独热编码(哑变量)处理。