NLP中的Embedding总结

最新推荐文章于 2024-06-07 12:26:36 发布

zhulinniao

最新推荐文章于 2024-06-07 12:26:36 发布

阅读量1.1k

点赞数

分类专栏：自然语言处理

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/108363152

版权

自然语言处理专栏收录该内容

12 篇文章 1 订阅

订阅专栏

NLP中的Embedding

1 榜单

可以从这里看到从2013年到现在所有的语言模型文章。这里先列表格总结，历史为什么这么走。多总结肯定是对的。

模型	思想	缺点
`word2vec`	CBOW(上下文词预测当前词) Skip-gram(当前词预测上下文词)	(1) 无法区分多义词的不同语义 (2) 同一个单词占的是同一行的参数空间，`词向量参数矩阵是固定的和静态的(训练好后每个单词的表达被固定住，预测时永远不变,不会跟着上下文使用场景变化而改变)` (3) 静态不可改变表达混合着训练预料中多种语义
`ELMO`	(1) 底层单词Embedding(w2v或glove) (2) 两层双向LSTM对应单词位置的Embedding	(1) 三层网络迁移学习,引入三层Embedding权重解决多义词问题 (2) 可以找到相同语义句子 (3) `LSTM抽取特征能力远弱于Transformer` (4) `双向拼接特征融合能力偏弱于BERT一体化融合特征方式`
`GPT1`	(1) 特征抽取器使用Transformer (2) 使用`当前单词的上文(未使用下文)来预测当前单词`	(1) 未使用当前单词的下文来预测当前单词 (2) 单向的语言模型构建方法(就是没有用下文信息,只用了上文)
`BERT`	(1) 特征抽取器使用Transformer (2) 双向语言模型建模 (3) 更多的数据规模	模型太大，参数太多，可以蒸馏
`GPT2`

【特别注意】ELMO GPT1 BERT都已经是动态模型(没有固定的词向量，使用时需要Fine-tuning)，即都是两阶段模型(先预训练，再Fine-tuning)

2 总结

2.1 特征抽取器

特征抽取器Transformer肯定远远好于RNN，支持并行，支持上下文，支持长距离。

2.2 GPT1的改造

【分类任务】 输入前后加上一个起始和终结符号
【句子关系判断】如文本蕴含问题(Textual Entailment)，两个句子中间再加个分隔符
【文本匹配】 两个句子顺序颠倒下做成两个输入(相当于两个新的样本,y相同)=>让模型知道句子顺序不重要

文本蕴含问题(Textual Entailment) 这里做一个解释，例如，在问答系统中，若给一个前提问题(premise)=京东的CEO是谁，若语料库中存在假说文本(hypothesis=刘强东在一九九八年成立了京东)，则premise和hypothesis的关系一般分为蕴含关系(entailment, premise=>hypothesis)和矛盾关系(contradiction)。

BERT的改造和GPT类似。

2.3 BERT中的Masked双向语言模型任务

【初步方案】随机选择语料中15%的单词，用[Mask]代替原单词(相当于抠掉)，再用模型去正确预测被抠的单词，再用encode的表达层拿去用
【导致问题】被抠掉的单词训练出来的语言模型词表达在Fine-tuning使用的时候有的单词不见了
【确定方案】在这随机选择语料中15%的单词中：
假设语句：my dog is hairy
(1) 80% token被mask——————my dog is [MASK]
(2) 10% token随机替换为其他token——my dog is apple
(3) 10% token保持不变——————my dog is hairy
【好处】这样不会出现模型中没有hairy这个单词的表达了
【输入输出形式】
input : [CLS] I like [MASK] (原始句子：I like cat)
ouput: C h1 h2 h3
对h3增加一层所有词的softmax，预测其输出是否为cat。
【注意】这里只[mask]了一个单词，有可能会出现一个句子里有两个以上单词被[mask]，所以是一个多分类任务

2.4 BERT中的Next Sentence Prediction任务

【确定方案】在构建句子对<A，B>时，50%的B是A的下一条句子，50%的B是语料中随机选择
【好处】可以更好的训练出两个句子之间的关系
【输入输出形式】
input [CLS] I like cat. [SEP] He like dog [SEP] (原始句子：I like cat. 下一句：He like dog.)
output: C h1 h2 h3 h4 h5 h6 h7 h8 h9 h10
C后面增加一层logit，判断是否是下一句。是一个二分类任务

2.5 BERT中的两个任务如何同时训练

Masked双向语言模型任务：多分类交叉熵损失函数loss
Next Sentence Prediction任务：二分类交叉熵损失函数loss
然后将上面两个loss求和即可。

Reference

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
 Bert预训练中Mask LM和Next Sentence Prediction输入输出是什么形式？
The Annotated Transformer
The Illustrated Transformer
bert在预训练时的两个下游任务详解

zhulinniao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP中的Embedding总结

NLP中的Embedding1 榜单1 榜单可以从这里看到从2013年到现在所有的语言模型文章。这里先列表格总结，历史为什么这么走。模型思想缺点word2vecCBOW(上下文词预测当前词),Skip-gram(当前词预测上下文词)无法区分多义词的不同语义同一个单词占的是同一行的参数空间ELMO...
复制链接

扫一扫