[论文阅读]Compression of Neural Machine Translation Models via Pruning

最新推荐文章于 2024-01-07 12:59:31 发布

XMU_MIAO

最新推荐文章于 2024-01-07 12:59:31 发布

阅读量349

点赞数

分类专栏：论文阅读文章标签：自然语言处理深度学习神经网络剪枝

本文链接：https://blog.csdn.net/zy_miao/article/details/109652272

版权

本文探讨了神经机器翻译（NMT）模型的过参数化问题，研究了Class-Blind、Class-Uniform和Class-Distribution三种剪枝策略。实验表明，即使在剪枝80%的情况下，经过重新训练，NMT模型的性能可以恢复甚至超过原始模型。权重剪枝揭示了NMT架构中的参数冗余，高层权重如注意力和softmax权重尤为重要。

摘要由CSDN通过智能技术生成

前言

论文名：Compression of Neural Machine Translation Models via Pruning
论文作者：Abigail See et.al.
期刊/会议名：CoNLL 2016
本文作者：XMU_MIAO
日期：2020/11/13

摘要

与其他深度学习领域一样，神经机器翻译（NMT）同样存在过参数化问题（over-parameterization），从而造成其存储空间过大。本文研究了三种简单的针对NMT模型基于大小的剪枝方案，即：Class-Blind,Class-Uniform,Class-Distribution三者在如何计算NMT架构中不同类别权重的剪枝阈值方面存在差异。我们证明了权重剪枝作为一种压缩技术针对最先进的NMT系统的效力。我们表明了在WMT’14English-German翻译任务上，拥有超过2亿个参数的NMT模型可以被剪枝40%而不造成性能损失。这有助于揭示NMT架构中的冗余分布。我们的主要结果是：通过再训练，可以恢复甚至超过被剪枝80%的模型。

一、Introduction

NMT模型虽然相比于基于词汇的翻译方法内存占用显著降低了，但模型规模对于移动设备来说仍然过大。虽然更深更大的模型能够带来更大的进步，它也引入了过度参数化，导致运行时间长、过拟合和上面讨论的存储大小问题。 对过度参数化问题的解决方案可能会帮助所有这三个问题，但是第一个问题(长运行时间)超出了本文的讨论范围。