
文本表示(Representation)
文本是一种非结构化的数据信息,是不可以直接被计算的。
文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。

文本表示的方法有很多种,下面只介绍 3 类方式:
- 独热编码 | one-hot representation
- 整数编码
- 词嵌入 | word embedding

独热编码 | one-hot representation
假如我们要计算的文本中一共出现了4个词:猫、狗、牛、羊。向量里每一个位置都代表一个词。所以用 one-hot 来表示就是:
猫:[1,0,0,0]
狗ÿ

本文介绍了文本表示的重要性,包括独热编码、整数编码和词嵌入(word embedding)的优缺点。重点讲解了两种主流的词嵌入算法Word2vec和GloVe,强调了它们在表达词语关系和低维向量空间的优势,并提供了相关深入学习资源。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



