论文学习笔记 - Language Models with Transformers

最新推荐文章于 2022-05-20 10:23:39 发布

不忘初心，坚持前行

最新推荐文章于 2022-05-20 10:23:39 发布

阅读量592

点赞数

分类专栏：论文学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhoulong264433/article/details/94332704

版权

1 相关工作

语言模型主要是基于RNN和Transformer两种。在Transformer提出以前，RNN及其相关变体如LSTM等，一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构，在处理文本这类序列数据时要比循环结构的RNN高效。

2 解决问题

但是随着NLP的发展，模型容量越来越大，层越来越深，参数越来越多，要训练一个优良的模型需要大量的计算资源和存储空间，比如BERT和GPT。这两个模型都是Transformer在语言建模中的重要应用，但是这两个模型过于庞大，参数都达到亿级，且所需大量的训练数据。

针对此问题，即训练一个优良的模型需要大量的计算资源、存储空间以及训练数据，基于现存的预训练的模型，此文通过修改微调原始模型，取得了号称state of the art的成果。但是有个问题，如何修改原始模型？此文提出CAS（Coordinate Architecture Search）搜索算法来解决这个问题。

3 原理

此文是分别修改BERT和GPT两个模型，所做的修改有三：其一，添加线性层，其二，添加LSTM层，

最低0.47元/天解锁文章

不忘初心，坚持前行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文学习笔记 - Language Models with Transformers

1 相关工作语言模型主要是基于RNN和Transformer两种。在Transformer提出以前，RNN及其相关变体如LSTM等，一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构，在处理文本这类序列数据时要比循环结构的RNN高效。2 解决问题但是随着NLP的发展，模型容量越来越大，层越来越深，参数越来越多，要训练一个优...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。