AMD：LLM三阶段剪枝策略SDS

最新推荐文章于 2024-10-07 06:31:57 发布

大模型任我行

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量710

点赞数 26

分类专栏：大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141862913

版权

大模型-推理优化专栏收录该内容

19 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism
🌐来源：arXiv, 2408.10473

摘要

🔸本文介绍了预训练语言模型（PLMs），它们被设计成具有上下文理解的鲁棒性，并在各种自然语言处理任务中表现出色。然而，它们庞大的大小会产生显着的计算和存储成本。现代剪枝策略采用一次性技术来压缩PLMs，无需在特定任务或其他一般数据上重新训练；然而，这些方法通常会导致不可或缺的性能降低。
🔸本文提出了SDS，一种稀疏-密集-稀疏剪枝框架，从权重分布优化的角度提高了剪枝后PLMs的性能。我们将剪枝过程分为三个步骤。首先，我们使用传统的一次性剪枝方法剪枝模型中不太关键的连接。接下来，我们通过重新激活带有稀疏正则化的剪枝连接来重构一个具有剪枝友好的权重分布的密集模型。最后，我们进行第二轮剪枝，得到一个比初始剪枝更优的剪枝模型。
🔸实验结果表明，SDS在相同的稀疏配置下优于最先进的剪枝技术SparseGPT和Wanda。例如，SDS在Raw-Wikitext2上将困惑度降低了9.13，并在OPT-125M的多个零-shot基准测试中平均提高了2.05％的准确性。