数据对大模型预训练效果的影响

最新推荐文章于 2024-06-22 18:58:20 发布

三月七꧁ ꧂

最新推荐文章于 2024-06-22 18:58:20 发布

阅读量717

点赞数 16

分类专栏： LLM 文章标签：深度学习人工智能语言模型机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43961909/article/details/139115754

版权

LLM 专栏收录该内容

15 篇文章 3 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

在训练大语言模型的过程中，预训练数据的质量对模型能力的影响至关重要。已有的研究表明，基于含有噪音、有毒和重复数据的低质量语料库进行预训练，会严重损害模型性能。

数据数量的影响

整体上，语言模型的性能会随着训练数据数量的增加而提升，符合扩展法则。然而，早期的研究工作（如 KM 扩展法则）认为增加模型参数更为重要，实际上 175B 参数的 GPT-3 模型只用了 500B 的词元进行了训练。随后，Chinchilla 扩展法则提出参数规模和数据规模应该同步增长，并且使用了1.4T 词元训练了具有 70B 参数的 Chinchilla 模型，数据量与参数量的比例大概为 20:1。相较于在 300B 词元上训练的 280B 参数的 Gopher 模型，Chinchilla模型展现出了更好的性能表现，这说明扩展训练数据数量对于提升大语言模型的性能非常关键。

在近期发布的大语言模型中，训练数据数量得到了高度关注，已经显著超越了 Chinchilla 扩展法则中给出的比例。例如，LLaMA-2 7B 参数的模型就在 2T 的词元数据上进行了预训练。一些更小尺寸的语言模型也使用了高达 1T 级别的数据进行了训练，发现其仍然没有达到语言模型能够学习的数据量上限。数据量的扩展性本质上来源于 Transformer 模型的可扩展性，这也是大语言模型能够取得成功最为关键的基础要素。

数据质量的影响

在获取充足数量的预训练数据后，数据质量直接决定了模型的实际性能。通过显著提升数据质量，使得语言模型在参数、数据、算力更加节约的情况下就能展现出与更大规模模型相匹敌甚至更为优异的性能。

为了探索高数据质量带来的收益，Phi-1 不仅精心筛选了

了解本专栏

超级会员免费看

三月七꧁ ꧂

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据对大模型预训练效果的影响

为了定量分析数据质量对于模型性能的影响，GLaM 模型对比了在原始数据和经过质量过滤的数据集上训练的模型性能，发现在各种自然语言处理任务上，在高质量数据上训练的模型都能取得更为出色的表现。此外，大语言模型所掌握的知识信息也来源于预训练数据，这意味着如果模型在包含事实性错误的、过时的数据上进行训练，那么它在处理相关主题时可能会产生不准确或虚假的信息，这种现象被称为“幻象”。例如，相关研究表明，在测试集合完全泄露的极端情况下，1.3B 的模型甚至在大部分任务超过了正常测评的 65B 的大语言模型。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

三月七꧁ ꧂ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。