Python系列 | 利用sklearn进行one-hot编码（LabelBinarizer与MultiLabelBinarizer）

最新推荐文章于 2023-11-09 16:00:05 发布

麻瓜1号

最新推荐文章于 2023-11-09 16:00:05 发布

阅读量4.1k

点赞数 2

分类专栏： Python 文章标签：机器学习 python 数据分析数据挖掘数据库

本文链接：https://blog.csdn.net/weixin_48249563/article/details/113923459

版权

sklearn one-hot编码多标签编码定类变量数据预处理

关键词由CSDN通过智能技术生成

Python 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了如何使用sklearn库中的LabelBinarizer和MultiLabelBinarizer对定类变量进行one-hot编码和多标签编码。通过示例展示了单个和多个nominal型特征的转换过程，简化了数据预处理步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

众所周知，当我们遇到nominal型特征时（统计学上称为定类变量），也就是用文字或字符串进行表示而无大小顺序关系的变量，有时候需要将此类定类变量转换为定量变量（数值），从而进行下一步的数据分析或挖掘。

在sklearn中，有两个非常方便的class——LabelBinarizer和MultiLabelBinarizer。

针对单个nominal型特征，可以利用LabelBinarizer可以快速进行one-hot编码，实现定类变量定量化。若存在多个nominal型特征，则使用MultiLabelBinarizer。

话不多说，看代码：

import numpy as np
# 先创建一个特征
nominal = np.array([["A"],
                   ["B"],
                   ["C"],
                   ["D"]])
# 导入LabelBinarizer
from sklearn.preprocessing import LabelBinarizer
one_hot = LabelBinarizer()  # 创建one-hot编码器
one_hot.fit_transform(nominal) # 对特征进行one-hot编码

# 转换前nominal
array([['A'],
       ['B'],
       ['C'],
       ['D']], dtype='<U1')
# 转换后结果
array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]])

三行代码解决one-hot编码，很快有没有！

对于多个nominal型特征的情况，操作也是类似的：

import numpy as np
# 创建多nominal
multi_nominal = np.array([["A","Black"],
                         ["B","White"],
                         ["C","Green"],
                         ["D","Red"]])
# 导入MultiLabelBinarizer
from sklearn.preprocessing import MultiLabelBinarizer
multi_one_hot = MultiLabelBinarizer()
multi_one_hot.fit_transform(multi_nominal)

# 转换前结果
array([['A', 'Black'],
       ['B', 'White'],
       ['C', 'Green'],
       ['D', 'Red']], dtype='<U5')
# 转换后结果
array([[1, 0, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1, 0]])