1.转换数据
1.1哑变量处理类别型数据
利用pandas库中的get_dummies函数对类别型特征进行哑变量处理。
get_dummies语法:
pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False)
- data: 表示需要哑变量处理的数据
- prefix:哑变量后列名的前缀
- prefix_sep='_':连接符
- dummy_na=False:是否为Nan值添加一列
对类别型特征进行哑变量处理主要解决了部分算法模型无法处理类别性数据的问题,在一定程度上起到了扩充特征的作用
哑变量处理前:
import pandas as pd
city_data=pd.DataFrame({"城市":["广州","上海","杭州","北京","深圳","杭州","上海"]})
print(city_data)
cdumm