python使用独热编码的两种情况

青柠花丷

已于 2022-04-15 16:01:59 修改

阅读量1.3k

点赞数 1

分类专栏：数据预处理文章标签： python

于 2022-04-14 22:10:15 首次发布

本文链接：https://blog.csdn.net/weixin_43993805/article/details/124183096

版权

数据预处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了在数据预处理阶段如何对特征进行独热编码，分别展示了当特征为数字和具体类别时的处理方法。对于数字特征，使用OneHotEncoder进行编码；对于具体类别，通过get_dummies函数直接生成列名，并展示了如何通过map函数进行数据转换。这些方法在机器学习和数据分析中至关重要。

摘要由CSDN通过智能技术生成

特征内容为数字时，采用以下代码

df_Species = df_iris.iloc[:, -1:]   
iris_oh = pd.DataFrame(OneHotEncoder(handle_unknown='ignore').fit(df_Species).transform(df_Species).toarray())
print(iris_oh)

输出结果

数据为具体内容时，可直接采用get_dummies函数，该函数可直接生成列名，更加便捷

data = pd.DataFrame([['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']])
data.columns = ['color', 'size', 'prize', 'class label']
size_d = {"M": 1, "L": 2, "XL": 3}
data["size"] = data["size"].map(size_d)   #使用map即可取消对应列的独热编码
lable = {"class1": 1, "class2": 2}
data["class label"] = data["class label"].map(lable)
print(data)
df = pd.get_dummies(data)
print(df.head())

输出结果

如有不足之处，欢迎大佬指正

青柠花丷

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python使用独热编码的两种情况

特征内容为数字时，采用以下代码df_Species = df_iris.iloc[:, -1:] iris_oh = pd.DataFrame(OneHotEncoder(handle_unknown='ignore').fit(df_Species).transform(df_Species).toarray())print(iris_oh)输出结果数据为具体内容时，可直接采用get_dummies函数，该函数可直接生成列名，更加便捷data = pd.DataFrame(
复制链接

扫一扫