文本特征提取——one-hot

最新推荐文章于 2023-06-15 09:59:08 发布

HIT_SunJiankun

最新推荐文章于 2023-06-15 09:59:08 发布

阅读量1.6k

点赞数 2

分类专栏： 20.11-情感分析NLP 21.10-知识图谱-产品开发记录文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/weixin_51117061/article/details/121529579

版权

独热编码是将分类变量转化为二进制向量的方法，适用于处理离散特征。它解决了分类器处理离散数据的问题，使特征间距离计算更合理，同时起到扩充特征的作用。然而，它也有缺点，如忽略词序，假设词独立，以及在高维稀疏矩阵中可能效率低下。在文本处理中，CountVectorizer和TfidfVectorizer可以实现独热编码和TF-IDF转换，用于表示文本特征。

摘要由CSDN通过智能技术生成

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用 N位状态寄存器来对 N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

One-Hot 编码是分类变量作为二进制向量的表示。(1) 将分类值映射到整数值。(2) 然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。是一种十分常用的类别处理手段，当特征是离散的，无序的，就可以通过one hot 进行特征数字化，比如一个特征有高、中、低三个值，通过独热编码，就可以分别编码为001,010,100。

一、one-hot 编码优缺点

优点：

(1) 解决了分类器不好处理离散数据的问题。

a. 欧式空间。在回归，分类，聚类等机器学习算法中，特征之间距离计算或相似度计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

b. one-hot 编码。使用 one-hot 编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用 one-hot 编码，确实会让特征之间的距离计算更加合理。

(2) 在一定程度上也起到了扩充特征的作用。

缺点：

在文本特征表示上有些缺点就非常突出了。

(1) 它是一个词袋模型，不考虑词与词之间的顺序（文本中词的顺序信息也是很重要的）；

(2) 它假设词与词相互独立（在大多数情况下，词与词是相互影响的）；

(3) 它得到的特征是离散稀疏的 (这个问题最严重)。

ps：One-Hot在分类器变量中的应用

类似 SVM中，原本线性不可分的特征，经过project之后到高维之后变得可分了 GBDT处理高维稀疏矩阵的时候效果并不好，即使是低维的稀疏矩阵也未必比SVM好

import numpy as np

#分词过的语料
corpus=[
    '这 是 第一个 文档',
    '这是 第二个 文档'

最低0.47元/天解锁文章

HIT_SunJiankun

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
文本特征提取——one-hot

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用 N位状态寄存器来对 N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。 One-Hot 编码是分类变量作为二进制向量的表示。(1) 将分类值映射到整数值。(2) 然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。是一种十分常用的类别处理手段，当特征是离散的，无序的，就可以通过one hot 进行特征数字化，比如一个特征有高、中、低三个值，通过独热编码，就可以分...
复制链接

扫一扫

专栏目录