2021-03-19

第二课是探索性分析,目标是大致了解数据集中数据的基本情况,为下一步做数据清洗,特征工程提供思路。

对于数据探索性分析主要有以下几个方面:

1.通过.head(),.tail()来直观地查看各个字段的数据样例,也可通过.info()实现,同时.info()可以显示数据集的类型。

2.通过.describe()来了解字段的统计量,主要对数值型字段有作用,可以了解其数量,均值,标准差,最大值,最小值,各个分位值,从而了解数据的大致分布。同时如果最大值或最小值出现明显偏离业务含义的值,则可认为该特征中含有脏数据,需要做相应的清洗。

3.通过.shape来了解数据集的样本量以及原始特征量

4.通过.isnull().sum()了解缺失值数量

5.通过.value_counts()了解数据集中的一个字段(主要对分类字段有意义)中各个类别的数量分布

6.通过scipy.stat中的分布函数和matplotlib.pyplot的画图功能,画出标准分布和数据集中特征或y值的分布,直观地观察满足数据满足何种分布,为后续做变换做准备

7.通过seaborn.displot画图y值的偏度skewness和峰度kurtosis图像。通过.skew()和.kurt()计算偏度和峰度

8.通过matplotlib.pylot.hist画直方图,查看数据分布

9.用pandas_profiling.ProfileReport(dataset)来对dataset生产完整EDA分析报告

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值