清华：LLM的密度缩放定律_densing law of llms-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/144315332

在这里插入图片描述

📖标题：Densing Law of LLMs
🌐来源：arXiv, 2412.04315

🌟摘要

🔸大型语言模型（LLMs）已经成为人工智能的一个里程碑，随着模型大小的增加，它们的性能可以提高。然而，这种扩展给训练和推理效率带来了巨大挑战，特别是在资源受限的环境中部署LLM，并且扩展趋势变得越来越不可持续。
🔸本文介绍了“容量密度”的概念，作为评估不同尺度下LLM质量的新指标，并描述了LLM在有效性和效率方面的趋势。为了计算给定目标LLM的容量密度，我们首先引入一组参考模型，并制定一个标度定律，根据这些参考模型的参数大小预测其下游性能。然后，我们将目标LLM的有效参数大小定义为参考模型实现等效性能所需的参数大小，并将容量密度形式化为有效参数大小与目标LLM实际参数大小的比率。容量密度为评估模型的有效性和效率提供了一个统一的框架。
🔸我们对最近开源基础LLM的进一步分析揭示了一个经验定律（Densing Law），即LLM的容量密度随时间呈指数增长。更具体地说，使用一些广泛使用的基准进行评估，LLM的容量密度大约每三个月翻一番。该定律为指导未来LLM的发展提供了新的视角，强调了提高容量密度的重要性，以最小的计算开销实现最佳结果。

🛎️文章简介

🔸研究问题：如何在不显著增加计算资源的情况下，提高大型语言模型（LLM）的效率和性能？
🔸主要贡献：论文提出了“容量密度”的概念，并发现了LLM的密度呈指数增长的趋势，命名为“Densing Law”。

📝重点思路

🔸密度定义：首先定义了LLM的密度，即有效参数大小与实际参数大小的比率。
🔸密度评估：通过训练一系列不同规模的参考模型，评估其密度。
🔸密度拟合：通过损失估计（参数大小与语言模型损失之间的关系）和性能估计（根据测试集上的损失来预测下游任务的性能）两个步骤，使用线性回归方法，拟合下游任务性能与参数大小之间的关系。

🔎分析总结

🔸LLM的密度呈指数增长趋势，密度每三个月翻一番。
🔸现有的模型压缩方法（如剪枝和蒸馏）通常不能提高压缩模型的密度。
🔸更好的性能并不总是意味着更高的密度，大模型在计算资源和预训练数据规模受限时可能不是最优的。
🔸自ChatGPT发布以来，LLM密度的增长速度显著加快，增长速率提高了50%。
🔸密度增长加速了推理成本的指数下降，即在相同性能下，模型的实际参数大小和计算成本都在减少。