数据总体了解:
读取数据集并了解数据集大小,原始特征维度;
通过info熟悉数据类型;
粗略查看数据集中各特征基本统计量;
缺失值和唯一值:
查看数据缺失值情况;
查看唯一值特征情况。
深入数据-查看数据类型
类别型数据
数值型数据:
离散数值型数据
连续数值型数据
数据间相关关系
特征和特征之间关系
特征和目标变量之间关系
用pandas_profiling生成数据报告
代码示例
- 导入数据分析及可视化过程需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(‘ignore’)
conda install 对应库,conda cloud查询安装代码
2. 读取文件
data_train = pd.read_csv(’./data/train.csv’)
data_test_a = pd.read_csv(’./data/testA.csv’)
- 总体了解
data_train.shape
data_test_a.shape
data_train.columns
通过info()来熟悉数据类型:
data_train.info()
总体粗略的查看数据集各个特征的一些基本统计量:
data_train.describe()
- 查看数据集中特征缺失值,唯一值等
查看缺失值:
print(f’There are {data_train.isnull().any().sum()} columns in train dataset with missing values.’)
1
在这里插入图片描述
上面得到训练集有22列特征有缺失值,进一步查看缺失特征中缺失率大于50%的特征:
have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf
nan可视化
missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()