第二部分数据分析
在这一部分主要做一下数据分析,主要是为了理解数据,对数据集含义有一定的理解,进而为建模打下一定基础。
-
首先是对数据整体的理解,包括一些基本的python 函数的使用:
data.info(),data.describe(), data.shape, data.dtypes, data.columns, data.head()等函数,对数据有一个基本的概念上的认知 -
关注数据质量的问题,包括理解数据的缺失,异常值等情况
-
关注不同数据的数据类型的问题:
- 将数据拆分为数值型和类型型变量
- 类型别变量,查看不同类别的分布情况
- 数据型变量,查看连续性和非连续型变量
- 数据打标签之后,将各变量根据数据标签查看分布
- 0,1 情况下哪些变量的分布具有显著的差异
- 注意还需要对不同类型的变量的处理:
- 数值型
- 类别型
- 时间
- 文本等,不同的数据类型有不同的处理方式,需要注意积累学习
整个过程中需要注意一些可视化的方法。