Python 使用Pandas进行数据预处理

CFF_伊人

于 2019-05-28 22:56:21 发布

阅读量1.4k

点赞数 1

分类专栏： Python数据分析和可视化文章标签：转换数据

本文链接：https://blog.csdn.net/weixin_43817064/article/details/90648444

版权

该博客介绍了如何使用Python的Pandas库进行数据预处理，包括哑变量处理类别型数据和连续型数据的离散化。在哑变量处理中，详细阐述了get_dummies函数的用法。对于连续型数据，讨论了等宽法、等频法和聚类分析法，分析了它们的优缺点和基本操作。

摘要由CSDN通过智能技术生成

1.转换数据

利用pandas库中的get_dummies函数对类别型特征进行哑变量处理。

get_dummies语法：

pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False)

对类别型特征进行哑变量处理主要解决了部分算法模型无法处理类别性数据的问题，在一定程度上起到了扩充特征的作用

哑变量处理前：

import pandas as pd
city_data=pd.DataFrame({"城市":["广州","上海","杭州","北京","深圳","杭州","上海"]})
print(city_data)

cdumm

关注

专栏目录