Word2vec vs Bert 系列技术要点
文章目录
Word2vec内容回顾
目的
- 将词转化为向量有助于机器理解
- 更容易计算词语和词语之间的距离,表此词语之间的关系
类比
- 比如说词向量之间的距离可以用下面的形式表示出来:
King - man + woman ≈ queen
引入
-
输入法:已经输入了一些词,产生若干的联想选项
-
词语的推荐,需要使用语言模型:从输入到输出
-
-
处理有三个步骤,首先是在词典中查询输入词的词向量,然后计算概率,然后找出对应的词语输出(概率)
考虑如何构建词向量
-
词嵌入,通过查看这个词语的上下文的单词进行嵌入
-
前提
-
有巨大的语料库(这个语料库已经被分好词了)
-
有一个滑动窗口(3,5,7?),也就是限制每次传入模型进行训练的窗口,窗口的大小就是每次传入模型的词语数量
-
每次滑动窗口产生一次训练语料(一次训练语料包括有feature context和label word,至于哪些是上下文,哪些用作预测label有不同的模型)
-
-
输入Input:单词(也就是特征),输出Output:预测词(也就是标签)
-
当要预测下面两个空
Example1:He was hit by a _________?Example2:He was hit by a _________ bus?
非常直观第一个词很容易想到是bus,第二个词容易想到是red,也就是说预测的这个空是跟这个空的上下文是紧密相关的,由此也就引发了下面的两种模型 -
CBOW模型(Continuous Bag of Words):通过context去预测中间的词。比如说
He was hit by a red bus in road这句话,用黑色加粗的部分context,去预测red -
Skip-gram模型和CBOW的策略相反,用red去预测context
主要介绍一下Skip-gram的一些关键步骤
-
通过滑动窗口来产生输入的语料