数据分析之Kaggle Titanic竞赛——第二章：数据清洗及特征处理、数据重构、可视化

最新推荐文章于 2023-03-21 10:46:36 发布

公户灿灿

最新推荐文章于 2023-03-21 10:46:36 发布

阅读量1.1k

点赞数 2

文章标签：可视化 python 数据分析

本文链接：https://blog.csdn.net/weixin_45507954/article/details/108148991

版权

动手学数据分析——第二章：数据清洗及特征处理、数据重构、可视化

0. 前言

前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。

1. 数据清洗及特征处理

我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。

1.1 缺失值观察与处理

1.1.1 缺失值观察

#方法一：
df.info()

#方法二：
df.isnull().sum()

1.1.2 缺失值处理

（1）处理缺失值的思路：

0
平均值
众数

（2）对Age列的数据的缺失值进行处理：

# 方法一：
df[df['Age']==None]=0

# 方法二：
df[df['Age'].isnull()] = 0

# 方法三：
df[df['Age'] == np.nan] = 0

【思考】检索空缺值用np.nan要比用None好，这是为什么？

【回答】数值列读取数据后，空缺值的数据类型为float64所以用None一般索引不到，比较的时候最好用np.nan

（3）dropna函数与fillna函数：

df.dropna().head(3)

df.fillna(0).head(3)

【思考】dropna和fillna有哪些参数，分别如何使用呢?

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

【参考】https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html

1.2 重复值观察与处理

1.2.1 重复值观察

df[df.duplicated()]

1.2.2 重复值处理

df.drop_duplicates().head()

1.2.3 保存清洗之后的数据

df.to_csv('test_clear.csv')

1.3 特征观察与处理

我们对特征进行一下观察，可以把特征大概分为两大类：
数值型特征：Survived ，Pclass， Age ，SibSp， Parch， Fare，其中Survived， Pclass为离散型数值特征，Age，SibSp， Parch， Fare为连续型数值特征
文本型特征：Name， Sex， Cabin，Embarked， Ticket，其中Sex， Cabin， Embarked， Ticket为类别型文本特征。

数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

1.3.1 对年龄进行分箱（离散化）处理

分箱操作：在建模中，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。

无监督分箱法：等距划分、等频划分

将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

df['AgeBand'] = pd.cut(df['Age'], 5,labels = ['1','2','3','4','5'])
df.to_csv('test_ave.csv')

将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = ['1','2','3','4','5'])
df.to_csv('test_cut.csv')

将连续变量Age按10% 30% 50 70% 90%五个年龄段，并用分类变量12345表示

df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = ['1','2','3','4',<

最低0.47元/天解锁文章

公户灿灿

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
数据分析之Kaggle Titanic竞赛——第二章：数据清洗及特征处理、数据重构、可视化

动手学数据分析——第二章：数据清洗及特征处理、数据重构、可视化0. 前言1. 数据清洗及特征处理1.1 缺失值缺失值观察与处理2. 数据重构3. 数据可视化0. 前言前面一章的内容大家可以感觉到我们主要是对基础知识做一个梳理，让大家了解数据分析的一些操作，主要做了数据的各个角度的观察。那么在这里，我们主要是做数据分析的流程性学习，主要是包括了数据清洗以及数据的特征处理，数据重构以及数据可视化。这些内容是为数据分析最后的建模和模型评价做一个铺垫。1. 数据清洗及特征处理我们拿到的数据通常是不干净的，所
复制链接

扫一扫