文章目录
前言
论文名:Compression of Neural Machine Translation Models via Pruning
论文作者:Abigail See et.al.
期刊/会议名:CoNLL 2016
本文作者:XMU_MIAO
日期:2020/11/13
摘要
与其他深度学习领域一样,神经机器翻译(NMT)同样存在过参数化问题(over-parameterization),从而造成其存储空间过大。本文研究了三种简单的针对NMT模型基于大小的剪枝方案,即:Class-Blind,Class-Uniform,Class-Distribution三者在如何计算NMT架构中不同类别权重的剪枝阈值方面存在差异。 我们证明了权重剪枝作为一种压缩技术针对最先进的NMT系统的效力。我们表明了在WMT’14English-German翻译任务上,拥有超过2亿个参数的NMT模型可以被剪枝40%而不造成性能损失。这有助于揭示NMT架构中的冗余分布。我们的主要结果是:通过再训练,可以恢复甚至超过被剪枝80%的模型。
一、Introduction
NMT模型虽然相比于基于词汇的翻译方法内存占用显著降低了,但模型规模对于移动设备来说仍然过大。虽然更深更大的模型能够带来更大的进步,它也引入了过度参数化,导致运行时间长、过拟合和上面讨论的存储大小问题。 对过度参数化问题的解决方案可能会帮助所有这三个问题,但是第一个问题(长运行时间)超出了本文的讨论范围。
二、Contribution
- 研究了权重剪枝对于NMT模型的有效性,包括三种基于大小的权重剪枝方案:class-blind、class-uniform、class-distribution
- 经过试验发现高层权重(attention、softmax等)非常重要,而低层权重(输入嵌入等)存在一些参数冗余现象。
三、Approach
3.1模型架构
在本文工作中,我们具体考虑以LSTM作为隐藏层单元的深度多层循环架构,图1展示了一个该架构的例子
3.2 NMT中的权重
图2展示了一个3.1中提到模型的具体细节。具体细节在图中进行了说明。
3.3 剪枝方案
我们遵循一般的基于大小的剪枝方法,该方法剪枝绝对值( L 1 L_1 L1范数)最小的一些权重。实验中采取了三种剪枝策略。假设整个模型的预期剪枝率为 x % x\% x%,那我们如何在模型的不同权重类别上(如图2)分配剪枝比例呢?我们建议研究以下三种剪枝方案:
- Class-Blind \textbf{Class-Blind} Class-Blind:将所有参数无论权重级别都按照大小( L 1 范 数 L_1范数 L1范数)进行排序,并修剪最小的 x % x\% x%参数(所