对语言处理预训练的总结2-26

阿多要努力学习

于 2020-02-27 00:21:10 发布

阅读量95

点赞数

本文链接：https://blog.csdn.net/weixin_43780551/article/details/104527942

版权

语言模型

比如一句话 I want to study，那么用概率表示这句话的概率就是
P(I)P(want|I)P(to|I want)P(study|I want to)
如果希望这个概率最大，就可以训练了

word2vec

有两种方法CBOW和Skip-gram
CBOW类似完形填空从一句话中扣掉一个单词
其中有个窗口值window ，被扣掉的词叫中心词，中心词为中心，范围为window的所有词是背景词
跳字模型和他相反保留中心词
区别就是P(I want study|to)和P(to|I want study)
因为相互独立
前者可以拆成3个P
那么如何训练呢
参数是中心词和背景词的向量
最大化似然函数概率
等价于最小化损失函数为 $\sum_{t=1}^{T} \sum_{-m \leq j \leq m,\ j \neq 0} \text{log}, P(w^{(t+j)} \mid w^{(t)}).$
$\log P(w_o \mid w_c) = \boldsymbol{u}_o^\top \boldsymbol{v}c - \log\left(\sum{i \in \mathcal{V}} \text{exp}(\boldsymbol{u}_i^\top \boldsymbol{v}_c)\right)$
如果用梯度下降法
那么梯度
$\frac{\partial \text{log}, P(w_o \mid w_c)}{\partial \boldsymbol{v}_c} = \boldsymbol{u}o - \sum{j \in \mathcal{V}} P(w_j \mid w_c) \boldsymbol{u}_j.$
其中为了加入噪声采取了一些办法
有两个向量mask和label用来区分中心词，背景词，和噪声词