数据预处理

本文探讨数据预处理的重要步骤,包括利用pandas读取和解读数据,进行数据探索如数据正确性、缺失值和异常值的检查,以及数据清洗,涉及离散/连续字段标注、无穷值和缺失值处理,确保数据适合输入机器学习模型。
摘要由CSDN通过智能技术生成

数据预处理

在这里插入图片描述

数据解读

1.利用pandas包读取数据

# 读取excel表格,第三行开始读取,读取train表
pd.read_excel('data.xlsx', header=2, sheet_name='train')
#读取csv文件 
pd.read_csv('data.csv', header=0)

2.查看数据集基本信息

data.info()  #DataFrame
data.shape  #数据集规模

数据探索

1.数据正确性校验

# 检验数据集id无重复
data['id'].nunique() == train.shape[0]

2.校验数据缺失情况

# 按列求缺失值并汇总
data.isnull().sum()

3.异常值校验
首先查看某一列的基本统计信息,一般对于连续变量,尤其对回归问题的数据集的标签

statistics = data['target'].describe()

在这里插入图片描述
对于连续变量,可以借助概率密度直方图进行分布的观察:

import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
sns.histplot(train['target'], kde=True)

概率密度直方图
当然,对于连续变量,我们也可以简单计算下异常值范围:

statistics.loc['mean'] - 3 * statistics
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值