阿里：并行缩放策略提升LLM效果-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/148118276

在这里插入图片描述

📖标题：Parallel Scaling Law for Language Models
🌐来源：arXiv, 2505.10475

🌟摘要

🔸人们普遍认为，通过增加参数（参数缩放）或输出标记（推理时间缩放），缩放语言模型应该会占用大量的空间或时间成本。
🔸我们引入了第三种更有效的推理缩放范式：在训练和推理时间增加模型的并行计算。我们将P个多样且可学习的转换应用于输入，并行执行模型的前向传递，并动态聚合P个输出。这种方法称为并行缩放（PARSCALE），通过重用现有参数来缩放并行计算，可以应用于任何模型结构、优化过程、数据或任务。我们从理论上提出了一种新的缩放律，并通过大规模预训练对其进行了验证，
🔸结果表明，具有P个并行流的模型类似于按O（log P）缩放参数，同时显示出更高的推理效率。例如，与实现相同性能改进的参数缩放相比，PARSCALE可以减少22倍的内存增加和6倍的延迟增加。它还可以通过在少量令牌上进行后训练，将现成的预训练模型回收为并行缩放的模型，从而进一步减少训练预算。我们发现的新缩放定律可能有助于在低资源场景中部署更强大的模型，并为计算在机器学习中的作用提供了另一种视角。

🛎️文章简介

🔸研究问题：如何通过并行计算来提高语言模型的训练效率和推理性能？
🔸主要贡献：论文提出了一种新的并行缩放策略（PARSCALE），该策略通过在多个并行流中重用现有参数来提升语言模型的性能，并建立了相应的并行缩放定律。

📝重点思路

🔸论文首先进行理论分析，提出在多个并行流中训练的语言模型可以被视为参数缩放的等效方法。
🔸进行大规模预训练实验，使用Qwen-2.5模型在不同的并行流和参数设置下验证并行缩放的有效性。
🔸实施两阶段训练策略，首先使用传统方式训练大部分数据，随后在小数据集上应用PARSCALE。
🔸采用前缀调优作为输入转换方式，并通过动态加权平均的方法实现输出聚合。

🔎分析总结

🔸实验结果表明，增加并行流的数量（P）能显著降低训练损失，并提升模型在推理阶段的效率，尤其在低资源环境中表现优越。
🔸PARSCALE在推理性能上相比参数缩放具有更好的效率，特别是在推理延迟和内存使用方面的提升。
🔸通过对比，发现PARSCALE在处理推理密集型任务（如编码和数学问题）时，性能提升更为显著。
🔸实验还验证了当P从1增加到8时，模型在下游任务中的表现普遍提高，尤其是在编码任务上。