数据预处理
数据解读
1.利用pandas包读取数据
# 读取excel表格,第三行开始读取,读取train表
pd.read_excel('data.xlsx', header=2, sheet_name='train')
#读取csv文件
pd.read_csv('data.csv', header=0)
2.查看数据集基本信息
data.info() #DataFrame
data.shape #数据集规模
数据探索
1.数据正确性校验
# 检验数据集id无重复
data['id'].nunique() == train.shape[0]
2.校验数据缺失情况
# 按列求缺失值并汇总
data.isnull().sum()
3.异常值校验
首先查看某一列的基本统计信息,一般对于连续变量,尤其对回归问题的数据集的标签
statistics = data['target'].describe()
对于连续变量,可以借助概率密度直方图进行分布的观察:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
sns.histplot(train['target'], kde=True)
当然,对于连续变量,我们也可以简单计算下异常值范围:
statistics