数据清洗及特征处理

最新推荐文章于 2021-10-04 15:03:49 发布

原创

最新推荐文章于 2021-10-04 15:03:49 发布 · 721 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了数据清洗的重要步骤，包括缺失值处理和重复值观察。在缺失值处理中，探讨了不同填充方法，如使用众数和中位数。在处理重复值时，讲解了如何选择合适的参数进行数据筛选。最后，文章提到了特征观察，特别是数值型和文本型特征的处理，如连续数据的分箱和文本变量的转换，为后续的数据分析和建模打下基础。

学习参考资料：datawhale动手学数据分析

学习链接：https://github.com/datawhalechina/hands-on-data-analysis

task2的学习任务是教程第二章第一部分

掌握数据清洗的方法
了解特征观察及处理

准备工作

导入numpy和pandas

import numpy as np
import pandas as pd

加载数据集

df=pd.read_csv('train.csv')

数据清洗

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

缺失值处理

观察缺失值

1.1查看每个特征下不是缺失值的个数(info能够观察数据集的基本信息）

df.info()

总数891，,age，cabin，embarked这三个特征下有缺失值，891分别减去714,201,889即可。

1.2直接求出缺失值个数

df.isnull().sum()

1.3 补充

df.count()

2.查看Age， Cabin， Embarked列的数据

方法1：

df[['Age','Cabin','Embarked']].head()

方法2：

df.Age.head()

df.Cabin.head()

df.Embarked.head()

对缺失值进行处理

(1)处理缺失值一般有几种思路

缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值

(2) 请尝试对Age列的数据的缺失值进行处理

不用函数的保留方法

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。