📖标题:Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism
🌐来源:arXiv, 2408.10473
摘要
🔸本文介绍了预训练语言模型(PLMs),它们被设计成具有上下文理解的鲁棒性,并在各种自然语言处理任务中表现出色。然而,它们庞大的大小会产生显着的计算和存储成本。现代剪枝策略采用一次性技术来压缩PLMs,无需在特定任务或其他一般数据上重新训练;然而,这些方法通常会导致不可或缺的性能降低。
🔸本文提出了SDS,一种稀疏-密集-稀疏剪枝框架,从权重分布优化的角度提高了剪枝后PLMs的性能。我们将剪枝过程分为三个步骤。首先,我们使用传统的一次性剪枝方法剪枝模型中不太关键的连接。接下来,我们通过重新激活带有稀疏正则化的剪枝连接来重构一个具有剪枝友好的权重分布的密集模型。最后,我们进行第二轮剪枝,得到一个比初始剪枝更优的剪枝模型。
🔸实验结果表明,SDS在相同的稀疏配置下优于最先进的剪枝技术SparseGPT和Wanda。例如,SDS在Raw-Wikitext2上将困惑度降低了9.13,并在OPT-125M的多个零-shot基准测试中平均提高了2.05%的准确性。
🛎️文章简介
🔸研究问题:语言模型的大尺寸会带来巨大的计算和存储成本,当前用一次性修剪策略不可避免地导致性能下降。
🔸主要贡献:论文提出了一种包含三步剪枝策略的SDS框架,通过优化权重分布和引入稀疏正则化元素,显著提高了剪枝后预训练语言模型的性能。
📝重点思路
🔺相关工作
🔸模型剪枝:大致分为结构化方法和非结构化方法,①结构化剪枝对硬件更加友好,直接剪枝整个权重段 ②非结构化剪枝依赖稀疏模式,如SparseGPT等
🔸权重分布优化:为了寻求更高效的神经网络,已经采用了各种技术来理解和优化权重分布
🔺论文方案
🔸第一步:对预训练模型进行初始剪枝。
🔸第二步:通过密集权重重建过程恢复部分权重,包括残余稀疏特性、基于数据的正则化和基于权重的正则化三种方案,以确保重建的权重分布更适合剪枝。
🔸第三步:进行第二次剪枝以进一步优化模型。
🔎分析总结
🔸SDS框架在语言建模任务中显著提高了模型的性能,降低了困惑度。
🔸SDS在零样本下游多任务性能指标上也显示出一致的优越性。
🔸SDS框架在优化权重分布方面有效,能够产生更友好的剪枝模型,并且在多种稀疏配置下都表现出鲁棒性和有效性。
💡个人观点
论文的核心在于提出稀疏-密集-稀疏三步,通过优化权重分布和引入稀疏正则化元素,显著提高了剪枝后预训练语言模型的性能。
附录