数据预处理

最新推荐文章于 2023-04-24 23:06:14 发布

李灬华

最新推荐文章于 2023-04-24 23:06:14 发布

阅读量469

点赞数

分类专栏：数据分析文章标签：机器学习数据分析集成学习

本文链接：https://blog.csdn.net/weixin_43928799/article/details/123882096

版权

本文探讨数据预处理的重要步骤，包括利用pandas读取和解读数据，进行数据探索如数据正确性、缺失值和异常值的检查，以及数据清洗，涉及离散/连续字段标注、无穷值和缺失值处理，确保数据适合输入机器学习模型。

摘要由CSDN通过智能技术生成

在这里插入图片描述

数据解读

1.利用pandas包读取数据

# 读取excel表格，第三行开始读取，读取train表
pd.read_excel('data.xlsx', header=2, sheet_name='train')

#读取csv文件 
pd.read_csv('data.csv', header=0)

2.查看数据集基本信息

data.info()  #DataFrame
data.shape  #数据集规模

1.数据正确性校验

# 检验数据集id无重复
data['id'].nunique() == train.shape[0]

2.校验数据缺失情况

# 按列求缺失值并汇总
data.isnull().sum()

3.异常值校验
首先查看某一列的基本统计信息，一般对于连续变量，尤其对回归问题的数据集的标签

statistics = data['target'].describe()

在这里插入图片描述
对于连续变量，可以借助概率密度直方图进行分布的观察：

import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
sns.histplot(train['target'], kde=True)

概率密度直方图
当然，对于连续变量，我们也可以简单计算下异常值范围：

statistics.loc['mean'] - 3 * statistics

关注

专栏目录