NLP中的Embedding总结

1 榜单

可以从这里看到从2013年到现在所有的语言模型文章。这里先列表格总结,历史为什么这么走。多总结肯定是对的。

模型思想缺点
word2vecCBOW(上下文词预测当前词)
Skip-gram(当前词预测上下文词)
(1) 无法区分多义词的不同语义
(2) 同一个单词占的是同一行的参数空间,词向量参数矩阵是固定的和静态的(训练好后每个单词的表达被固定住,预测时永远不变,不会跟着上下文使用场景变化而改变)
(3) 静态不可改变表达混合着训练预料中多种语义
ELMO(1) 底层单词Embedding(w2v或glove)
(2) 两层双向LSTM对应单词位置的Embedding
(1) 三层网络迁移学习,引入三层Embedding权重解决多义词问题
(2) 可以找到相同语义句子
(3) LSTM抽取特征能力远弱于Transformer
(4) 双向拼接特征融合能力偏弱于BERT一体化融合特征方式
GPT1(1) 特征抽取器使用Transformer
(2) 使用当前单词的上文(未使用下文)来预测当前单词
(1) 未使用当前单词的下文来预测当前单词
(2) 单向的语言模型构建方法(就是没有用下文信息,只用了上文)
BERT(1) 特征抽取器使用Transformer
(2) 双向语言模型建模
(3) 更多的数据规模
模型太大,参数太多,可以蒸馏
GPT2** **

【特别注意】ELMO GPT1 BERT都已经是动态模型(没有固定的词向量,使用时需要Fine-tuning),即都是两阶段模型(先预训练,再Fine-tuning)


2 总结

2.1 特征抽取器

特征抽取器Transformer肯定远远好于RNN,支持并行,支持上下文,支持长距离。


2.2 GPT1的改造

【分类任务】 输入前后加上一个起始和终结符号
【句子关系判断】如文本蕴含问题(Textual Entailment),两个句子中间再加个分隔符
【文本匹配】 两个句子顺序颠倒下做成两个输入(相当于两个新的样本,y相同)=>让模型知道句子顺序不重要

文本蕴含问题(Textual Entailment) 这里做一个解释,例如,在问答系统中,若给一个前提问题(premise)=京东的CEO是谁,若语料库中存在假说文本(hypothesis=刘强东在一九九八年成立了京东),则premise和hypothesis的关系一般分为蕴含关系(entailment, premise=>hypothesis)矛盾关系(contradiction)

BERT的改造和GPT类似。


2.3 BERT中的Masked双向语言模型任务

【初步方案】随机选择语料中15%的单词,用[Mask]代替原单词(相当于抠掉),再用模型去正确预测被抠的单词,再用encode的表达层拿去用
【导致问题】被抠掉的单词训练出来的语言模型词表达在Fine-tuning使用的时候有的单词不见了
【确定方案】在这随机选择语料中15%的单词中:
假设语句:my dog is hairy
(1) 80% token被mask——————my dog is [MASK]
(2) 10% token随机替换为其他token——my dog is apple
(3) 10% token保持不变——————my dog is hairy
【好处】这样不会出现模型中没有hairy这个单词的表达了
【输入输出形式】
input : [CLS] I like [MASK] (原始句子:I like cat)
ouput: C h1 h2 h3
对h3增加一层所有词的softmax,预测其输出是否为cat。
【注意】这里只[mask]了一个单词,有可能会出现一个句子里有两个以上单词被[mask],所以是一个多分类任务


2.4 BERT中的Next Sentence Prediction任务

【确定方案】在构建句子对<A,B>时,50%的B是A的下一条句子,50%的B是语料中随机选择
【好处】可以更好的训练出两个句子之间的关系
【输入输出形式】
input [CLS] I like cat. [SEP] He like dog [SEP] (原始句子:I like cat. 下一句:He like dog.)
output: C h1 h2 h3 h4 h5 h6 h7 h8 h9 h10
C后面增加一层logit,判断是否是下一句。是一个二分类任务


2.5 BERT中的两个任务如何同时训练

Masked双向语言模型任务:多分类交叉熵损失函数loss
Next Sentence Prediction任务:二分类交叉熵损失函数loss
然后将上面两个loss求和即可。


Reference

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式?
The Annotated Transformer
The Illustrated Transformer
bert在预训练时的两个下游任务详解

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值