DataWhale数据分析第二次任务 数据清洗以及特征处理

本文介绍了数据分析中的数据清洗过程,包括缺失值的观察与处理,如Age列的缺失值填充;重复值的检查与处理;以及特征处理,如年龄的分箱离散化和文本变量的转换。通过这些步骤,将原始数据转化为适合分析或建模的形式。
摘要由CSDN通过智能技术生成

前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理,让大家了解数据分析的一些操
作,主要做了数据的各个角度的观察。那么在这里,我们主要是做数据分析的流程性学习,主要是包括了数据清
洗以及数据的特征处理,数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。

一、开始之前,导入包

#加载所需要的库
import numpy as np
import pandas as pd
#加载数据train.csv
df = pd.read_csv('train.csv')
df.head()

在这里插入图片描述

二、数据清洗简述

我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。

三、缺失值观察与处理

我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢

任务一:缺失值观察

(1) 请查看每个特征缺失值个数
(2) 请查看Age, Cabin, Embarked列的数据

df.info()

在这里插入图片描述

df.isnull().sum()
#判断是空的个数

在这里插入图片描述

df[['Age', 'Cabin', 'Embarked']].head()

在这里插入图片描述

任务二:对缺失值进行处理

(1) 处理缺失值一般有几种思路
  • 删除缺失值所在行,适用于小比例缺失情况
  • 删除缺失比例大的列,适用于某变量集中缺失的情况
  • 不处理
df.dropna().head()
#dropna默认删除包含缺失值的行、穿参 how='all', 删除所有值均为NAN的行,若想删除列传入参数 axis= 1
#仅仅传入thresh = n ,意味着这一行除去NA值,剩余数值的数量大于等于n
(2) 请尝试对Age列的数据的缺失值进行处理
  • 利用fillna 进行填充
df.fillna(0).head()
# fillna 函数将缺失值补充为0,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值