[论文阅读]Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture

本文探讨了稳定彩票假说(SLT)在Transformer架构上的应用,对比了大小剪枝(MP)、彩票票(LT)、常量彩票票(CLT)等方法。SLT-MP(先SLT后MP)方法在高稀疏度下表现出色,而MP-SLT则表明MP不适用于寻找中奖彩票。研究发现,参数的符号初始化对训练至关重要,而非具体数值。
摘要由CSDN通过智能技术生成

前言

论文名:Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture
论文作者:Christopher Brix et.al.
期刊/会议名:ACL 2020
本文作者:XMU_MIAO
日期:2020/11/21

摘要

  稀疏模型需要更少的内存用于存储并能够通过减少必要的FLOPs来获得更快的推理。稳定彩票假说(Stabilized Lottery Ticket,SLT)表明神经网络可以使用基于很少甚至无训练迭代下未收敛模型计算的掩码来进行剪枝。
  Transformer在WMT2014 English->German和English->French任务上表明SLT与基于大小的剪枝方法在稀疏度小于85%的情况下有相似的效果,并基于此提出一种新的结合剪枝方法,其优于其他剪枝方法甚至在更高水平的稀疏度下。此外,我们证实了参数的初始化符号是训练成功的主要因素,而不是其特定初始值,并证明了基于大小的剪枝方法不能用于寻找中奖彩票。

一、Introduction

暂略

二、Pruning Techniques

在以下所给公式中,假设网络是由参数 θ \theta θ指定的,网络迭代训练 T T T次, θ t ( t ∈ [ 0 , T ] ) \theta_t(t\in[0,T]) θt(t[0,T])表示第 t t t次迭代时的网络参数。以下分别简要介绍基于大小的剪枝方案、各类彩票假说剪枝方案、以及基于此作者自己提出的两种剪枝方案。

2.1 Magnitude Pruning(MP)

依靠参数的大小来决定从网络中剪枝哪些参数,本文采用的MP遵循以下实现:网络中每一层中的参数按照大小进行排序,训练过程中,越来越多的权重参数被剪枝。 值得强调的是,MP是唯一一种不需要进行多次迭代训练的剪枝技术。

2.2 Lottery Ticket(LT)

该剪枝方法假设给定一个掩码 m m m,初始化的网络 θ 0 \theta_0 θ0包含一个稀疏子网络 θ 0 ⊙ m \theta_0\odot m θ0m,其可以训练达到与 θ 0 \theta_0 θ0相同的精度。为了确定掩码 m m m,收敛模型 θ T \theta_T θT中每一层的参数按照大小进行排序, m m m是用于遮蔽最小的一些参数以便达到目标稀疏度 s T s_T sT。要强调的是,尽管 m m m是由 θ T \theta_T θ<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值