Bert albert xlnet gtp

最新推荐文章于 2022-02-01 17:32:40 发布

xiewenbo

最新推荐文章于 2022-02-01 17:32:40 发布

阅读量207

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiewenbo/article/details/105448837

版权

《GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递》

Bert缺点

Bert的自编码语言模型也有对应的缺点，就是XLNet在文中指出的，第一个预训练阶段因为采取引入[Mask]标记来Mask掉部分单词的训练模式，而Fine-tuning阶段是看不到这种被强行加入的Mask标记的，所以两个阶段存在使用模式不一致的情形，这可能会带来一定的性能损失；另外一个是，Bert在第一个预训练阶段，假设句子中多个单词被Mask掉，这些被Mask掉的单词之间没有任何关系，是条件独立的，而有时候这些单词之间是有关系的，XLNet则考虑了这种关系

什么是XLNet，它为什么比BERT效果好？

GPT和GPT-2都是AR语言模型。
AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时，通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。但是AR语言模型有一些缺点，它只能使用前向上下文或后向上下文，这意味着它不能同时使用前向上下文和后向上下文。

XLNet 和BERT的区别是什么？

与AR语言模型不同，BERT被归类为自动编码器(AE)语言模型。

AE语言模型的目的是从损坏的输入中重建原始数据。

损坏的输入意味着我们使用在训练前阶段将原始tokeninto替换为 [MASK] 。我们的目标是预测into来得到原来的句子。
AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bert albert xlnet gtp

《GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递》Bert缺点Bert的自编码语言模型也有对应的缺点，就是XLNet在文中指出的，第一个预训练阶段因为采取引入[Mask]标记来Mask掉部分单词的训练模式，而Fine-tuning阶段是看不到这种被强行加入的Mask标记的，所以两个阶段存在使用模式不一致的情形，这可能会带来一定的性能损失；另外一个是，Ber...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。