前言
论文名:Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture
论文作者:Christopher Brix et.al.
期刊/会议名:ACL 2020
本文作者:XMU_MIAO
日期:2020/11/21
摘要
稀疏模型需要更少的内存用于存储并能够通过减少必要的FLOPs来获得更快的推理。稳定彩票假说(Stabilized Lottery Ticket,SLT)表明神经网络可以使用基于很少甚至无训练迭代下未收敛模型计算的掩码来进行剪枝。
Transformer在WMT2014 English->German和English->French任务上表明SLT与基于大小的剪枝方法在稀疏度小于85%的情况下有相似的效果,并基于此提出一种新的结合剪枝方法,其优于其他剪枝方法甚至在更高水平的稀疏度下。此外,我们证实了参数的初始化符号是训练成功的主要因素,而不是其特定初始值,并证明了基于大小的剪枝方法不能用于寻找中奖彩票。
一、Introduction
暂略
二、Pruning Techniques
在以下所给公式中,假设网络是由参数 θ \theta θ指定的,网络迭代训练 T T T次, θ t ( t ∈ [ 0 , T ] ) \theta_t(t\in[0,T]) θt(t∈[0,T])表示第 t t t次迭代时的网络参数。以下分别简要介绍基于大小的剪枝方案、各类彩票假说剪枝方案、以及基于此作者自己提出的两种剪枝方案。
2.1 Magnitude Pruning(MP)
依靠参数的大小来决定从网络中剪枝哪些参数,本文采用的MP遵循以下实现:网络中每一层中的参数按照大小进行排序,训练过程中,越来越多的权重参数被剪枝。 值得强调的是,MP是唯一一种不需要进行多次迭代训练的剪枝技术。
2.2 Lottery Ticket(LT)
该剪枝方法假设给定一个掩码 m m m,初始化的网络 θ 0 \theta_0 θ0包含一个稀疏子网络 θ 0 ⊙ m \theta_0\odot m θ0⊙m,其可以训练达到与 θ 0 \theta_0 θ0相同的精度。为了确定掩码 m m m,收敛模型 θ T \theta_T θT中每一层的参数按照大小进行排序, m m m是用于遮蔽最小的一些参数以便达到目标稀疏度 s T s_T sT。要强调的是,尽管 m m m是由 θ T \theta_T θ<