论文学习笔记 - Language Models with Transformers

1 相关工作

语言模型主要是基于RNN和Transformer两种。在Transformer提出以前,RNN及其相关变体如LSTM等,一直是语言建模方面的中流砥柱。而Transformer的出现改变了这一状况。Transformer由于没有循环结构,在处理文本这类序列数据时要比循环结构的RNN高效。

2 解决问题

但是随着NLP的发展,模型容量越来越大,层越来越深,参数越来越多,要训练一个优良的模型需要大量的计算资源和存储空间,比如BERT和GPT。这两个模型都是Transformer在语言建模中的重要应用,但是这两个模型过于庞大,参数都达到亿级,且所需大量的训练数据。

针对此问题,即训练一个优良的模型需要大量的计算资源、存储空间以及训练数据,基于现存的预训练的模型,此文通过修改微调原始模型,取得了号称state of the art的成果。但是有个问题,如何修改原始模型?此文提出CAS(Coordinate Architecture Search)搜索算法来解决这个问题。

3 原理

此文是分别修改BERT和GPT两个模型,所做的修改有三:其一,添加线性层,其二,添加LSTM层,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值