ML学习笔记--Word Embedding

@@@龙猫

已于 2022-10-01 20:56:34 修改

阅读量547

点赞数

分类专栏：自然语言处理深度学习文章标签：学习深度学习机器学习

于 2022-10-01 20:46:28 首次发布

本文链接：https://blog.csdn.net/weixin_45768308/article/details/127136577

版权

自然语言处理同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

深度学习

10 篇文章 0 订阅

订阅专栏

word embedding

词嵌入

词嵌入

在这里插入图片描述

基本思想

词嵌入是一种无监督学习，机器通过阅读大量的文章来学习单词的意思，通过上下文来理解一个单词，例如，特朗普宣誓就职，拜登宣誓就职这两个句子，后面都是宣誓就职，说明特朗普和拜登这两个词是非常相似的，它们的向量在高维空间也应该是相似的。

从one-hot到word embedding

词表示最直觉的做法就是1-of-N Encoding,向量维度和词表大小一样，每个词在其中某一维为1，其它维为0，这种表示无法体现出词之间的关系
word calss 方法是将意思相似或同属性的词归位一类，但是这种划分也没有体现出类与类的关系，划分粗糙，需要很多人工设计
Word embedding也是一种降维操作，通过无监督的方法从文本中学出来，最终学到的结果，可以在向量空间的距离上体现出词之间的关系。
在这里插入图片描述

挖掘上下文信息

Count-based method和Prediction-based method

Count-based方法认为如果两个单词一起出现的频率很高，那么这两个词就是很相关，二者的内积就越接近这两个单词在同一篇文章中出现的次数
在这里插入图片描述

Prediction-based的任务是，给出一个句子的单词 $w_{i-2}$ , $w_{i-1}$ ,预测下一个出现的word $w_i$ 是什么？
要训练出一个neural network,它的输入是句子中某个单词 $w_{i-1}$ 的的one-hot向量，然后输出后一个词在所有词上的概率，网络训练好之后，把第一个隐藏向量取出来就可以作为word embedding
在这里插入图片描述