Meta：Llama3技术揭秘，千亿规模LLM再添虎将

大模型任我行

于 2024-08-22 15:00:00 发布

阅读量1.1k

点赞数 19

分类专栏：大模型-成熟基座文章标签：人工智能自然语言处理语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141415196

版权

大模型-成熟基座专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：The Llama 3 Herd of Models
🌐来源：arXiv, 2407.21783

🛎️文章简介

论文是Llama 3系列的技术报告，介绍了模型在不同领域的应用和评估结果，包括文档分析、语音生成、安全编码等，还分析了训练过程、数据收集和模型优化等细节。
该模型具有丰富的功能，可以回答多语言的问题、编写高质量的代码、解决复杂的推理问题，并可以直接使用各种工具或以零样本方式进行操作。

📝重点思路

🔺预训练

概述

性能提升主要是由数据质量和多样性的改进以及训练规模的扩大推动的

训练语料

从网络获取，通过去重和过滤进行清洗
通过知识分类和缩放定律，控制不同数据源的配比
在少量高质量代码和数学数据上进行退火训练，不包含任何基准数据以确保评测的客观性

模型架构

与Llama 2相似，小的变动主要是：

使用8个键值头的GQA
用注意力掩模来防止同一序列中不同文档之间的自注意力，在标准预训练中影响有限，但发现它对于很长序列的持续预训练很重要
提高分词压缩率 ④提高RoPE基频

硬件设施

迁移到Meta生产集群（16K H100），优化了计算、存储和网络。

训练配方

初始预训练、长上下文预训练和退火预训练三阶段

🔺后训练

训练流程

使用人工标注的偏好数据在预训练上训练奖励模型
对预训练监督微调(SFT)，使用奖励模型执行拒绝采样
使用直接偏好优化（DPO）进一步训练，屏蔽掉DPO丢失中的格式标记和NLL损失正则化
对每个RM、SFT或DPO阶段使用各种版本的数据或超参数的实验获得的模型进行平均
将上述方法应用六轮，每轮都会收集新的偏好注释和 SFT数据，从最新模型中采样合成数据

训练数据

偏好数据设置为四个排序级别
SFT数据包括人工注释、特定功能和少量人工整理，覆盖英语、代码、多语言、考试、工具推理和长文本
数据清洗过后，围绕主题、质量、难度和语义进行数据修剪

能力

依次介绍了代码、多语言、数学推理、长上下文、工具使用、真实性和可控性的能力调优细节

🔎模型评估

预训练

标准基准覆盖常识推理、知识、阅读理解、数学推理、长上下文、代码、对抗性评价和综合评价，额外引入稳健性和数据污染。

后训练

除了标准基准之外，还对不同的能力进行了广泛的人类评估。

安全

在全流程上均涉及到安全策略，并引入红队识别。

附录

在这里插入图片描述

在这里插入图片描述

大模型任我行

关注

19
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型任我行 随意啦，喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。