参考博客链接:
https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python
https://www.kaggle.com/startupsci/titanic-data-science-solutions
数据分析流程
- 分类,对样本进行再分类,了解不同类的含义和相关性
- 相关,了解样本数据中的相关性,正负相关
- 转换,数据是否直接可用,是否需要转换类型等。
- 完整,缺失值处理。
- 纠正,分析错误值,剔除异常值,删除无用值
- 更新,基于现有数据创建新的数据,使其遵循拥有相关性。
- 制图,根据数据性质和解决方案,绘制可视化图表
数据浏览
- 查看 .column
- 查看 head, tail
- 查看 info()
- 查看 .describe() 数值型的数据分布
- 查看 .describe(include=[‘O’]) 查看离散型的数据分布
目的:了解数据格式,数据种类,数据含义,数值型和离散型,缺失值,数据分布
单变量的分析
- 查看describe
df_train[‘SalePrice’].describe() - 查看分布和
sns.distplot(df_train[‘SalePrice’]); - 峰度和偏度
#skewness and kurtosis
print(“Skewness: %f” % df_train[‘SalePrice’].skew())
print(“Kurtosis: %f” % df_train[‘SalePrice’].kurt())
二元变量分析
- 对连续变量用散点图
- 对离散变量用箱型图