ELMO BERT GPT

最新推荐文章于 2024-05-15 12:53:48 发布

丁叔叔

最新推荐文章于 2024-05-15 12:53:48 发布

阅读量269

点赞数

分类专栏： NLP 深度学习

本文链接：https://blog.csdn.net/weixin_43758551/article/details/98489260

版权

NLP 同时被 2 个专栏收录

49 篇文章 0 订阅

订阅专栏

深度学习

34 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/Forlogen/article/details/92011185
而NLP中的ELMO（Embeddings from Language Model ）出自Matthew E. Peters, Mark Neumann等人发表在 NAACL 2018上的《Deep contextualized word representations》，它是一种基于RNN的语言模型。例如当我们给模型一个句子“潮水退了就知道谁没穿裤子”，希望看到的标记后输入潮水，然后下一时刻根据前一时刻的输出”潮水“输出“退了“”，依次往复，最后就可以训练得到一个词嵌入向量。通常使用的是双向的RNN，因此每一个方向都可以得到一个词嵌入向量，将它们拼接起来就可以得到一个更好的词向量。
在这里插入图片描述
当然我们可以将模型做的很深，在每一层中都会产生一个词向量，那么我们应该选择哪一个呢？ELMO的做法就是：我全都要！

更深层次的RNN,每个输出词向量有自己的权重e，在这个基础上，所有的权重都要，训练的是权重a。

BERT
BERT是Bidirectional Encoder Representations from Transformers的缩写
NLP中的BERT出自Jacob Devlin, Ming-Wei Chang的《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》一文中，它可以看做是Transformer的Encoder，使用大量无标注的文本数据进行学习。例如上面给出的例子”潮水退了就知道谁没穿裤子“，将其输入到BERT中，每一个词都会给出一个相应的词向量
在这里插入图片描述
那我们应该如何训练BERT呢？在原始的paper中，作者提出了两种不同的训练方式，
第一种为Masked LM 。它将属于语句中的某些词标记为MASK，然后使用一个线性的多分类器来判别mask掉的是哪一个词

在这里插入图片描述
第二种方式称为Next Sentence Prediction ，顾名思义就是给定一个句子，预测出它的下一句应该是什么。
这里需要使用到一些标记符号，例如CLS表示输出分类结果的位置，SEP表示两句话的边界……。例如我们将“醒醒吧”和“你没有妹妹”作为输入，经过训练得到的词向量就需要通过一个线性的二分器判别它们是否是上下句的关系。
在这里插入图片描述

**在实际的模型训练中，以上的两种方式是同时使用的。**此外，在原始的paper中作者提供了四种使用BERT的场景。

第一种是文本分类：将一个文本输入到BERT中，最近经过一个线性的分类器就会得到这个文本的类别。通常在不同类别的文本上训练，线性分类器的参数更新较多，而BERT部分只是做一些微调，所以训练的开销并不大。
在这里插入图片描述

第二种为类似于词性标注的任务，给定模型一个输入语句，最后输入每一个词的词性类别。

在这里插入图片描述

第三种是推理的任务，给定一个前提语句，判断另一个假设语句是真的、假的还是不确定。
在这里插入图片描述
第四种方式是QA，喂给模型一篇文章，然后给出一些文中已有答案的问题，看模型能否给出正确的答案。

开始单词位置是s 后面单词是e
如果，s=e 就是一个单词
s<e 就输出几个词
s>e 就是没有答案

ERNIE
ERNIE全称Enhanced Representation through Knowledge Integration ，它是由百度提出的一种知识增强的语义表示模型，通过对词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等多项中文 NLP 任务上表现出色，有些甚至优于 BERT 在处理同类中文任务的结果。
例如下面的例子所示，BERT只能判断出缺失的是哪个字，而ERNIE可以做到知道缺失的是哪个词。

在这里插入图片描述
GPT
GPT全称Generative Pre-Training ，出自OpenAI的《Improving Language Understanding by Generative Pre-Training》一文，它是一个非常大的模型，到底有多大呢？ELMO的参数有94M，BERT的参数有340M，而GPT-2的参数就有1542M之多！所以官方一开始放出的只有GPT的小版本，不过前几天看到一个新闻，来自慕尼黑工业大学的Connor Leahy同学，在两个月的时间里，付出了200个小时的时间，花费了大约6000人民币，复现了GPT-2项目。
GPT的整个过程和Transformer是类似的，例如前面的例子：潮水退了就知道谁没穿裤子，当我们输入“潮水”后，希望模型经过计算可以给出下一个词为“退了”
在这里插入图片描述
当输入“退了”后，模型就会给出下一个词"就"

丁叔叔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ELMO BERT GPT

https://blog.csdn.net/Forlogen/article/details/92011185而NLP中的ELMO（Embeddings from Language Model ）出自Matthew E. Peters, Mark Neumann等人发表在 NAACL 2018上的《Deep contextualized word representations》，它是一种基于R...
复制链接

扫一扫