[论文阅读]Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture

最新推荐文章于 2023-03-20 21:29:10 发布

XMU_MIAO

最新推荐文章于 2023-03-20 21:29:10 发布

阅读量253

点赞数

分类专栏：论文阅读文章标签：网络深度学习人工智能神经网络

本文链接：https://blog.csdn.net/zy_miao/article/details/109878165

版权

本文探讨了稳定彩票假说（SLT）在Transformer架构上的应用，对比了大小剪枝（MP）、彩票票（LT）、常量彩票票（CLT）等方法。SLT-MP（先SLT后MP）方法在高稀疏度下表现出色，而MP-SLT则表明MP不适用于寻找中奖彩票。研究发现，参数的符号初始化对训练至关重要，而非具体数值。

摘要由CSDN通过智能技术生成

前言

论文名：Successfully Applying the Stabilized Lottery Ticket Hypothesis to the Transformer Architecture
论文作者：Christopher Brix et.al.
期刊/会议名：ACL 2020
本文作者：XMU_MIAO
日期：2020/11/21

摘要

稀疏模型需要更少的内存用于存储并能够通过减少必要的FLOPs来获得更快的推理。稳定彩票假说（Stabilized Lottery Ticket，SLT）表明神经网络可以使用基于很少甚至无训练迭代下未收敛模型计算的掩码来进行剪枝。
Transformer在WMT2014 English->German和English->French任务上表明SLT与基于大小的剪枝方法在稀疏度小于85%的情况下有相似的效果，并基于此提出一种新的结合剪枝方法，其优于其他剪枝方法甚至在更高水平的稀疏度下。此外，我们证实了参数的初始化符号是训练成功的主要因素，而不是其特定初始值，并证明了基于大小的剪枝方法不能用于寻找中奖彩票。

一、Introduction

暂略

二、Pruning Techniques

在以下所给公式中，假设网络是由参数 $\theta$ 指定的，网络迭代训练 $T$ 次， $\theta_t(t\in[0,T])$ 表示第 $t$ 次迭代时的网络参数。以下分别简要介绍基于大小的剪枝方案、各类彩票假说剪枝方案、以及基于此作者自己提出的两种剪枝方案。

2.1 Magnitude Pruning（MP）

依靠参数的大小来决定从网络中剪枝哪些参数，本文采用的MP遵循以下实现：网络中每一层中的参数按照大小进行排序，训练过程中，越来越多的权重参数被剪枝。 值得强调的是，MP是唯一一种不需要进行多次迭代训练的剪枝技术。

2.2 Lottery Ticket（LT）

该剪枝方法假设给定一个掩码 $m$ ,初始化的网络 $\theta_0$ 包含一个稀疏子网络 $\theta_0\odot m$ ，其可以训练达到与 $\theta_0$ 相同的精度。为了确定掩码 $m$ ，收敛模型 $\theta_T$ 中每一层的参数按照大小进行排序， $m$ 是用于遮蔽最小的一些参数以便达到目标稀疏度 $s_T$ 。要强调的是，尽管 $m$ 是由 $\theta_T$