📖标题:The Llama 3 Herd of Models
🌐来源:arXiv, 2407.21783
🛎️文章简介
- 论文是Llama 3系列的技术报告,介绍了模型在不同领域的应用和评估结果,包括文档分析、语音生成、安全编码等,还分析了训练过程、数据收集和模型优化等细节。
- 该模型具有丰富的功能,可以回答多语言的问题、编写高质量的代码、解决复杂的推理问题,并可以直接使用各种工具或以零样本方式进行操作。
📝重点思路
🔺预训练
概述
性能提升主要是由数据质量和多样性的改进以及训练规模的扩大推动的
训练语料
- 从网络获取,通过去重和过滤进行清洗
- 通过知识分类和缩放定律,控制不同数据源的配比
- 在少量高质量代码和数学数据上进行退火训练,不包含任何基准数据以确保评测的客观性
模型架构
与Llama 2相似,小的变动主要是:
- 使用8个键值头的GQA
- 用注意力掩模来防止同一序列中不同文档之间的自注意力,在标准预训练中影响有限,但发现它对于很长序列的持续预训练很重要
- 提高分词压缩率 ④提高RoPE基频
硬件设施
迁移到Meta生产集群(16K H100),优化了计算、存储和网络。
训练配方
初始预训练、长上下文预训练和退火预训练三阶段
🔺后训练
训练流程
- 使用人工标注的偏好数据在预训练上训练奖励模型
- 对预训练监督微调(SFT),使用奖励模型执行拒绝采样
- 使用直接偏好优化(DPO)进一步训练,屏蔽掉DPO丢失中的格式标记和NLL损失正则化
- 对每个RM、SFT或DPO阶段使用各种版本的数据或超参数的实验获得的模型进行平均
- 将上述方法应用六轮,每轮都会收集新的偏好注释和 SFT数据,从最新模型中采样合成数据
训练数据
- 偏好数据设置为四个排序级别
- SFT数据包括人工注释、特定功能和少量人工整理,覆盖英语、代码、多语言、考试、工具推理和长文本
- 数据清洗过后,围绕主题、质量、难度和语义进行数据修剪
能力
- 依次介绍了代码、多语言、数学推理、长上下文、工具使用、真实性和可控性的能力调优细节
🔎模型评估
预训练
标准基准覆盖常识推理、知识、阅读理解、数学推理、长上下文、代码、对抗性评价和综合评价,额外引入稳健性和数据污染。
后训练
除了标准基准之外,还对不同的能力进行了广泛的人类评估。
安全
在全流程上均涉及到安全策略,并引入红队识别。
附录