学习参考资料:datawhale动手学数据分析
学习链接:https://github.com/datawhalechina/hands-on-data-analysis
task2的学习任务是教程第二章第一部分
- 掌握数据清洗的方法
- 了解特征观察及处理
准备工作
导入numpy和pandas
import numpy as np
import pandas as pd
加载数据集
df=pd.read_csv('train.csv')
数据清洗
我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。
缺失值处理
观察缺失值
1.1查看每个特征下不是缺失值的个数(info能够观察数据集的基本信息)
df.info()
总数891,,age,cabin,embarked这三个特征下有缺失值,891分别减去714,201,889即可。
1.2直接求出缺失值个数
df.isnull().sum()
1.3 补充
df.count()
2.查看Age, Cabin, Embarked列的数据
方法1:
df[['Age','Cabin','Embarked']].head()
方法2:
df.Age.head()
df.Cabin.head()
df.Embarked.head()
对缺失值进行处理
(1)处理缺失值一般有几种思路
缺失值的处理方式通常有三种: 补齐缺失值, 删除缺失值, 删除缺失值, 保留缺失值
(2) 请尝试对Age列的数据的缺失值进行处理
不用函数的保留方法 对缺失值进行0填充
1.补全(1)
df[df.Age==None]&