大模型预训练技巧

XuMing&

于 2024-09-12 12:57:19 发布

阅读量2.5k

点赞数 27

CC 4.0 BY-SA版权

文章标签：人工智能深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mingzai624/article/details/142172262

Q：当前大模型能力为啥还能提升？

LLama3 405B 技术报告看，大模型之所以能力仍在快速提升，主要驱动力有三个：

首先就是不断扩大模型和数据规模（Scaling Law）。
一个是越来越强调数据质量的作用，各种数据筛选方法和工具越来越多，保证质量是第一位的
不断增加数学、逻辑、代码这种能够提升大模型理性能力的数据配比比例，包括在预训练阶段（增加预训练数据此类数据比例，且在预训练后面阶段来上采样此类数据，就是说同样数据多执行几遍，以增加其对模型参数影响的权重）和Post-Training阶段（增加此类数据占比，Llama3的经过instruct的模型比仅做预训练模型相比，各种尺寸的效果提升都很大）皆是如此。

目前看，在通用数据快被用完情况下，第三个因素会成为之后大模型进步的主导力量，包括使用数学、逻辑、代码合成数据在Post-Training阶段的应用，目前技术也越来越成熟，其质量和数量会是决定未来大模型效果差异的最关键因素。PS：合成数据其实是模型蒸馏的一种变体，合成数据是更大的模型输出数据作为Teacher，小点的模型作为Student从中学习知识，所以其实本质上是一种模型蒸馏。

Q：如何训练优质小模型？

最近半年小模型在快速崛起，各种开源小模型此起彼伏，且效果也越来越好。

小模型无论是训练成本、推理成本还是对于用户数据隐私保护，相比大模型都有独到的好处。唯一的问题是效果，只要Scaling law成立，就可以推断出小模型效果不会比超大规模模型效果好，否则就直接反证了Scaling law是不成立的。

所以小模型的关键点在于：在模型规模大小受限的情况下，如何通过其它技术手段来不断提升模型效果，最好的结局是小模型尺寸比最大模型小很多倍，但是效果逐步逼近最大模型的效果，两者差距越来越小。

这样美好的结局会出现么？目前看有极大可能会达成这一目标。从最近一年的技术进展来看，有三个关键因素不断提升小模型效果：

1. 增加预训练数据的数量和质量

为了打破Optimal Chinchilla Law，需要在保证数据质量的前提下显著增加数据量。这是一个已经验证有效的方法。去年初，一些模型（例如pythia和Llama 1）严格遵循这个法则，导致相同规模的模型效果远不如那些大量增加数据的模型。后来，通过猛加数据，小模型的效果就越来越好。

2. 模型蒸馏

从开源角度来看，这个武器相对较新，而且我判断用蒸馏来提升小模型效果的能力非常强大。所谓“蒸馏”，就是说在预训练阶段小模型作为Student，大模型作为Teacher，Teacher告诉Student更多信息来提升小模型效果。<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。