深度学习中，样本量和参数的关系

最新推荐文章于 2024-07-25 16:58:58 发布

weixin_45465139

最新推荐文章于 2024-07-25 16:58:58 发布

阅读量1.6k

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45465139/article/details/129683226

版权

GPT模型的出现让我们对大模型的性能有了一个新的认识，但是不是模型越大越好？

在之前的实践中，通常使用复杂的模型和较少的数据集，容易产生过拟合；而使用简单的模型和较大的数据集，则会欠拟合。

论文《Scaling Laws for Neural Language Model》发表于2020年，探究了语言模型的一些规律。

模型大小和模型结构对结果的影响：模型的性能依赖于模型的规模，模型的规模主要由三部分组成：模型参数N(包括emb的数量）,数据集的大小D,还有算力C,模型性能主要受限于这三个因素，和模型的深度和宽度关系不大。

以下是本论文的主要结论：

性能主要取决于规模，而不取决于模型形状：模型性能主要依赖于规模，规模由三个因素组成：模型参数的数量N（不包括嵌入的embeddings）、数据集的大小D和用于训练的计算量C。在合理的范围内，性能对其他架构超参数（如深度与宽度）的依赖性非常弱。

平滑幂定律：性能与三个比例因子N、D、C中的每一个都有幂律关系，当不受其他两个因子的制约时，其趋势跨越六个数量级以上。

过拟合的普遍性：只要我们同时扩大N和D，性能就会得到可预测的改善，但如果其中一个（N或者D）保持不变，而另一个增加，则会进入收益递减的状态。性能损失可预测地取决于比率N0.74/D，这意味着每次我们将模型大小增加8倍时，我们只需要将数据增加大约5倍就可以避免损失。

训练的规律：训练曲线遵循可预测的幂律，其参数与模型大小大致无关。通过推断训练曲线的早期部分，我们可以粗略地预测如果我们训练更长时间，将会达到的损失。（这里GPT3的技术文档中也有用到类似的概念）

迁移随着测试性能的提高而提高：当我们在具有不同于训练分布的文本上评估模型时，结果与训练验证集上的结果强相关，损失的偏移量大致恒定——换句话说，转移到不同的分布会导致持续的惩罚，但在其他方面会随着训练集的表现而大致提高。（这个没太看懂）

样本效率：大模型比小模型更具样本效率，可以用更少的优化步骤和更少的数据量达到相同的性能。

收敛效率低下：当计算量C固定，但对模型大小和可用数据没有限制时，我们通过训练非常大的模型和在收敛之前停止训练来获得最佳性能。因此，最大计算效率训练将比基于训练小模型以收敛的预期更具样本效率，数据需求随着训练计算的增长非常缓慢。

最佳batchsize：训练这些模型的最佳batchsize致仅为loss的幂，并且仍然可以通过测量梯度噪声尺度来确定；;对于我们可以训练的最大模型来说，大约有1-2百万个token在收敛。

关注