CCL |模型结构优化前沿动态综述

文章发布于“东大自然语言处理实验室”(微信号:gh_c20f65ec11c1)

神经网络方法在自然语言处理相关任务中被广泛应用,新的模型结构和方法层出不穷。东北大学计算机学院自然语言处理实验室肖桐老师在CCL 2020上分享了模型结构优化前沿动态,现将分享内容整理如下:
在这里插入图片描述
该报告主要介绍了神经网络模型结构的最新进展和发展趋势。
在这里插入图片描述
回顾NLP领域神经网络结构的发展历程,从2013年的Word2Vec发展到Sequence to Sequence、注意力机制、Transformer、BERT,到最近提出的GPT-3,可以看到基于自注意力的Transformer已经主导了各类NLP任务。在这里插入图片描述
针对相关模型总结分析,我们发现:NLP领域模型结构的整体趋势是模型越来越复杂、规模越来越大,而其运行效率也成为了人们不得不考虑的一大因素。
在这里插入图片描述
目前神经网络模型结构优化的趋势主要有三点:一是提升模型表示能力,包括局部依赖建模、长序列建模、位置/结构信息编码以及深层网络建模。二是提升模型运行效率,包括降低运行代价、优化推断效率,如显存、运算速度等。三是自动学习模型结构,即机器自动搜索针对不同任务的神经网络模型。
在这里插入图片描述
在NLP许多任务中都需要对局部依赖进行建模,例如表示短语信息,而现有的自注意力机制更加关注前后单词,无法很好地捕获局部依赖。在这里插入图片描述
针对这一问题,一类解决方法是引入卷积操作,通过CNN捕获局部特征,与自注意力的全局特征进行融合,如Convolutional Self-attention (Yang et al., NAACL 2019);或者在自注意力层后直接堆叠卷积层,如Conformer (Gulati et al., arXiv 2020)。

在这里插入图片描述
另一类方法是设计多分支结构,在Transformer提出不久就有很多相关工作,例如Lite Transformer (Wu et al., ICLR 2020) 提出的通过卷积分支提取局部特征、自注意力分支提取全局特征;Evolved Transformer (So et al., ICML 2019) 通过自动结构搜索,得到了多两个注意力分支并行和两个卷积操作并行的分支结构。
在这里插入图片描述
长序列建模能够提供更丰富的语义信息,在机器翻译、语音识别、生物信息和广告预估等领域都有许多应用场景。对于长序列建模,传统的模型有很大的缺陷,例如自注意力复杂度随序列长度平方增长,其高显存占用的问题阻碍了模型的应用。传统做法将序列切分为较短的片段,这样就忽略了长距离的依赖。
在这里插入图片描述
为此一些工作在Transformer中引入记忆机制,使用定长的向量表示变长的上下文信息,比较典型的有Transformer-XL (Yang et al., ACL 2019) 和Compressive Transformer (Rae et al., ICLR 2020)。在这里插入图片描述
也有一些工作聚焦在稀疏注意力机制的设计上,相较于自注意力计算序列中任意两个元素的关系,这些稀疏注意力模式只计算一些局部的信息,包括局部敏感注意力 (Reformer, Kitaev et al., ICLR 2020)、随机注意力 (Synthesizer, Tay et al., arXiv 2020)、窗口和全局结合的注意力等 (Longformer, Beltagy et al., arXiv 2020)。不过,由于底层实现问题,在GPU设备上这些稀疏注意力不一定真正加速计算,但在并行程度低的CPU等设备仍存在提升潜力。在这里插入图片描述
原始的自注意力机制难以捕获词序信息,为此许多工作针对其使用的绝对位置编码提出了改进。包括通过树结构编码相对位置 (SPR, Wang et al., EMNLP 2019)、通过连续动态系统和ODE学习编码位置 (FLOATER, Liu et al., ICML 2020) 以及将位置向量的连续函数扩展到复数域 (Complex embeddings, Wang et al., ICLR 2020)等。在这里插入图片描述
而对于结构信息,也有大量相关工作通过添加额外的编码模块来对其进行建模,例如Tree Transformer (Wang et al., EMNLP 2019) 使用额外的结构注意力操作捕获句法和语法信息。
在这里插入图片描述
早期的深层网络方面的工作包括Transparent Attention (Bapna et al., EMNLP 2018) 和Depth Growing (Wu et al., ACL 2019) 都成功地训练了较深的网络,需要注意的是Transformer中的一层网络包含了注意力计算、前馈神经网络、残差连接和层正则化等多个模块。在这里插入图片描述
深层网络建模中有两大关键性因素:局部网络结构调整与合适的训练方式。首先介绍一些局部性的网络结构调整的工作,例如Transformer-DLCL (Wang et al., ACL 2019) 中提及的将层正则化位置调整到每一层网络的输入更有利于深层网络的梯度传播,能够有效地训练深层Transformer模型。此外,在此基础上提出的Transformer-DLCL模型能够动态地融合包括词嵌入层在内的中间层表示,进一步提高了信息的传递效率,取得了更好的翻译性能。
在这里插入图片描述
在此基础上,多尺度协调网络 (Wei et al., ACL 2020) 使用分块机制并加入GRU连接来控制不同块的信息流通,成功训练了48层的Transformer模型。
在这里插入图片描述
对于训练方式的工作探索也收获了很好的结果。例如由浅入深地训练深层网络 (Li et al., EMNLP 2020),核心思想是复用底层的网络参数。先训练浅层的网络,通过相应的拷贝策略来堆叠网络并继续训练。
在这里插入图片描述
除此之外,也有一些工作通过改进参数初始化来训练深层网络,而不需要修改结构。典型的一些工作包括Depth-wise (Zhang et al., EMNLP 2019) 和Lipschitz Constrained (Xu et al., ACL 2020) 等。
在这里插入图片描述
当前模型结构优化的另一大趋势,即提升模型运行效率。NLP模型从Transformer的500万参数量发展到BERT的3.4亿参数量,再到目前GPT-3的1700亿参数量,其计算成本限制了模型的实际部署。在这里插入图片描述
针对该问题的几类主流方法,首先是层级的结构剪枝。典型的相关工作是样本自适应网络结构,包括FastBERT (Liu et al., ACL 2020)、Depth Adaptive Transformer (Elbayad et al., ICLR 2020) 和LayerDrop (Fan et al., ICLR 2020)等。这类网络结构在推断时能够根据输入自动选择模型的部分层进行计算,而跳过其余层,达到加速和减少参数量的目的。
在这里插入图片描述
接下来是低秩分解,这类方法通过矩阵分解的方法提升计算效率,例如Adaptive Input Representations (Baevski et al., ICLR 2019) 提出词频自适应表示,词频越高则对应的词向量维度越大,反之越小,显著减少了词向量矩阵大小。
在这里插入图片描述
最后是减少冗余计算,例如Sharing Attention Weights (Xiao et al., IJCAI 2019)提出的基于相似度共享不同层的注意力输出,前文提到的针对长序列建模的一些工作也能够有效减少模型的计算复杂度。
在这里插入图片描述
对于下一步网络结构优化的趋势的预测,我们认为应该是网络结构搜索(Neural Architecture Search, NAS)。NAS旨在自动搜索适用于当前任务的模型结构,是一个新兴领域,在计算机视觉等领域已经得到了广泛的应用。
在这里插入图片描述
NAS的整体框架包括三部分,一是搜索空间,它决定了搜索哪些模型结构,二是搜索策略,即如何对搜索空间进行探索,三是性能评估,即如何快速对模型结构的性能进行评价。
在这里插入图片描述
扩大搜索空间方面的一些例子包括搜索循环网络单元间的连接(ESS,Li et al., ACL 2020)、使用基本数学计算搜索正则化方法 (Evolving Normalizations, Liu et al., NeurIPS 2020),或者以Transformer为基础进化得到的Evolved Transformer (So et al., ICML 2019)。
在这里插入图片描述
对于搜索策略也有大量的工作进行探索,具有代表性的工作包括DARTS (Liu et al., ICLR 2019) 提出的可微分结构搜索和ProxylessNAS (Cai et al., ICLR 2019) 提出的路径采样和针对硬件资源搜索模型结构等。
在这里插入图片描述
一些面向NLP任务的结构搜索工作,例如I-DARTS (Jiang et al., EMNLP 2019) 通过改进的可微分结构搜索在命名实体识别任务的尝试、ESS在语言建模和序列标注任务搜索循环单元和单元间连接方式,以及针对机器翻译任务的结构搜索NAS for NMT (Fan et al., TASLP 2020)。
在这里插入图片描述
结构搜索在高效结构设计方面的应用也有许多值得借鉴的工作,包括HAT (Wang et al., ACL 2020)针对不同硬件优化Transformer结构,发现CPU设备上深而窄的网络结构更加有效,而GPU设备上宽而浅的网络结构更合适。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上为本次报告中提及的论文,现以供参考,同时小牛团队发布了一个覆盖机器学习和自然语言处理领域的Survey列表,地址为https://github.com/NiuTrans/ABigSurvey,欢迎大家访问。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值