数据清洗及特征处理

本文介绍了数据清洗的重要步骤,包括缺失值处理和重复值观察。在缺失值处理中,探讨了不同填充方法,如使用众数和中位数。在处理重复值时,讲解了如何选择合适的参数进行数据筛选。最后,文章提到了特征观察,特别是数值型和文本型特征的处理,如连续数据的分箱和文本变量的转换,为后续的数据分析和建模打下基础。
摘要由CSDN通过智能技术生成

学习参考资料:datawhale动手学数据分析

学习链接:https://github.com/datawhalechina/hands-on-data-analysis

task2的学习任务是教程第二章第一部分

  • 掌握数据清洗的方法
  • 了解特征观察及处理

准备工作

导入numpy和pandas

import numpy as np
import pandas as pd

加载数据集

df=pd.read_csv('train.csv')

数据清洗

我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。

缺失值处理

观察缺失值

1.1查看每个特征下不是缺失值的个数(info能够观察数据集的基本信息)

df.info()

总数891,,age,cabin,embarked这三个特征下有缺失值,891分别减去714,201,889即可。

1.2直接求出缺失值个数

df.isnull().sum()

1.3 补充

df.count()

2.查看Age, Cabin, Embarked列的数据

方法1:

df[['Age','Cabin','Embarked']].head()

方法2:

df.Age.head()
df.Cabin.head()
df.Embarked.head()

对缺失值进行处理

(1)处理缺失值一般有几种思路

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值

(2) 请尝试对Age列的数据的缺失值进行处理

不用函数的保留方法 对缺失值进行0填充

1.补全(1)

df[df.Age==None]&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值