十分钟读完 Meta提出Llama 2模型的经典论文:Llama 2: Open Foundation and Fine-Tuned Chat Models

超越GPT-3:Meta AI发布新一代开源人工智能对话大模型Llama 2

引言:介绍 Llama 2 的发布背景和其在对话用例中的优化。

随着人工智能技术的飞速发展,大型语言模型(LLMs)已经成为了人类智能助手的代表,它们在需要专业知识的复杂推理任务中表现出色,涵盖了编程、创意写作等多个专业领域。这些模型通过直观的聊天界面与人类互动,迅速获得了广泛的应用和认可。

然而,尽管训练方法看似简单,但高昂的计算成本限制了LLMs的发展,仅有少数几家机构能够开发这类模型。虽然已有一些如BLOOM、LLaMa-1和Falcon等开源预训练LLMs发布,它们在性能上可以与GPT-3等闭源预训练竞争对手相媲美,但这些模型并不适合作为闭源“产品”LLMs(如ChatGPT、BARD和Claude)的替代品。这些闭源产品LLMs经过了大量的微调,以符合人类偏好,从而极大地提高了它们的可用性和安全性。这一步骤可能需要大量的计算和人工注释成本,且通常缺乏透明度或易于复制性,限制了社区在推进AI对齐研究方面的进步。

为了解决这一问题,我们开发并发布了Llama 2,这是一个由预训练和微调的LLMs组成的家族,Llama 2和Llama 2-Chat的规模高达70亿参数。在我们测试的有用性和安全性基准上,Llama 2-Chat模型通常比现有的开源模型表现更好。它们在我们进行的人类评估中也显示出与一些闭源模型相当的竞争力。我们采取了措施提高这些模型的安全性,使用了特定于安全的数据注释和调整,并进行了红队测试和迭代评估。此外,本文详细描述了我们的微调方法和提高LLM安全性的方法。我们希望这种开放性能够使社区能够复制微调的LLMs,并继续改进这些模型的安全性,为LLMs的更负责任的发展铺平道路。我们还分享了在开发Llama 2和Llama 2-Chat期间的新观察,例如工具使用和知识的时间组织的出现。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

论文标题、机构、论文链接和项目地址(如有)。

论文标题: Llama 2: Open Foundation and Fine-Tuned Chat Models

机构: 由Meta AI的研究团队开发

论文链接https://arxiv.org/pdf/2307.09288.pdf

项目地址: 项目的代码和模型可以在以下链接找到:

Llama 2 模型家族的构建:从预训练到微调的过程。

预训练数据的选择和处理

Llama 2 模型家族的构建始于精心挑选和处理预训练数据。预训练数据包括公开可用的多样化数据源,但排除了含有大量个人信息的网站数据。为了提高模型的知识水平并减少错误信息的生成,开发团队对数据进行了上采样,以增加事实性强的来源。此外,为了确保预训练的负责任,团队遵循了 Meta 的标准隐私和法律审查流程,没有使用任何 Meta 用户数据。在预训练数据中,英语占据了主导地位,但也包含了少量其他语言的文本。为了确保模型的安全性,开发团队在预训练阶段没有过度清洗数据,以避免过度泛化和潜在的人口群体意外过滤。

模型架构和训练细节

Llama 2 模型采用了标准的 Transformer 架构,并在 Llama 1 的基础上进行了改进,包括增加了上下文长度和采用了分组查询注意力(Grouped-Query Attention, GQA)以提高大型模型的推理可扩展性。模型使用了 AdamW 优化器,并采用了余弦学习率调度,以及权重衰减和梯度裁剪等技术。此外,为了减少预训练的碳足迹,团队努力提高了模型训练的效率,并通过 Meta 的可持续性项目直接抵消了所有排放。

预训练模型的评估

预训练模型在多个流行的学术基准测试中进行了评估,包括对事实真实性、有害内容和偏见的测试。Llama 2 在 TruthfulQA、ToxiGen 和 BOLD 等基准测试中的表现显示出在真实性和信息性方面的提升,以及在有害内容生成方面的降低。然而,预训练模型在有害内容指标上的表现并不优于其他模型,这可能是因为开发团队没有过度过滤预训练数据的结果。

安全性和有用性的追求:Llama 2-Chat 的优化策略。

监督式微调(SFT)的实施

Llama 2-Chat 的优化策略首先是通过监督式微调(Supervised Fine-Tuning, SFT)开始的。开发团队收集了数千个高质量的 SFT 数据示例,并发现使用较少但质量更高的自有注释数据可以显著改善结果。在 SFT 阶段,每个样本由一个提示和一个答案组成,模型使用自回归目标进行微调,只在答案令牌上进行反向传播。

人类反馈强化学习(RLHF)的应用

在 SFT 的基础上,Llama 2-Chat 通过人类反馈强化学习(Reinforcement Learning with Human Feedback, RLHF)进一步优化。RLHF 包括收集代表人类偏好的经验样本数据,训练奖励模型,并使用这些数据进行模型行为与人类偏好的进一步对齐。开发团队实施了二元比较协议来收集偏好数据,并专注于有用性和安全性。此外,为了解决有用性和安全性之间的潜在冲突,团队训练了两个独立的奖励模型,分别针对有用性和安全性进行优化。

多轮一致性的 Ghost Attention (GAtt) 技术

为了改善对多轮对话的控制,Llama 2-Chat 引入了 Ghost Attention(GAtt)技术。GAtt 是一种简单的方法,通过在微调数据中添加指令来帮助注意力在多个阶段中保持焦点。GAtt 使得对话控制可以在多个转换中保持一致,即使是在模型在早期 RLHF 版本中倾向于忘记初始指令的情况下。通过 GAtt,Llama 2-Chat 能够在长达 20 多轮的对话中保持对指令的一致性。

通过上述方法,Llama 2-Chat 在人类评估中的有用性和安全性方面均优于开源模型,并与商业闭源模型(如 ChatGPT)相当。然而,人类评估的结果受到提示集、评估指南主观性和评估者主观性的限制,因此在实际部署前,开发者应进行针对特定应用的安全测试和调整。

讨论:Llama 2-Chat 面临的挑战和未来的改进方向

1. 挑战

Llama 2-Chat,作为一系列预训练和微调的大型语言模型(LLMs),在对话用例中的优化表现虽然出色,但仍面临一些挑战。首先,与其他LLMs一样,Llama 2-Chat在预训练后停止了知识更新,这可能导致生成的信息过时或不准确。其次,模型有产生非事实性生成的倾向,例如提供未经证实的建议,以及倾向于幻觉,即生成与现实不符的内容。

此外,Llama 2-Chat在初期主要集中于英语数据,虽然模型在其他语言上有一定的熟练度,但由于非英语预训练数据的限制,其在英语以外的语言性能仍然脆弱,应谨慎使用。由于训练数据来源于公开在线数据集,模型可能会生成有害、冒犯性或有偏见的内容。尽管通过微调尝试减轻这些问题,但一些问题可能仍然存在,特别是对于那些没有公开数据集可用的语言。

不是所有使用AI模型的人都有良好的意图,对话AI代理可能被用于生成虚假信息或检索有关生物恐怖主义或网络犯罪等主题的信息。尽管已经努力调整模型以避免这些主题并减少这些用例的能力,但这些风险仍然存在。

在某些情况下,安全调整可能过于谨慎,导致Llama 2-Chat在回应某些请求时过于谨慎,或者在回应中包含过多的安全细节。

2. 改进方向

未来的改进方向包括继续微调和发布更新版本,以解决上述挑战。这可能涉及改进模型对非英语语言的处理能力,以及进一步提高模型在安全性和有用性方面的性能。此外,开发新技术,如Ghost Attention(GAtt),有助于控制多轮对话中的对话流程,也是未来改进的方向之一。

总结:Llama 2-Chat 的贡献和对开放式 AI 研究的影响

Llama 2-Chat作为一系列预训练和微调的大型语言模型,已经展示了与现有开源聊天模型相比的竞争力,以及与某些专有模型在评估集上的同等能力。通过详细阐述实现这些模型的方法和技术,特别是在有用性和安全性原则方面的对齐,Llama 2-Chat对社会的贡献显著,并且通过负责任地开放访问Llama 2和Llama 2-Chat,显著促进了研究的进展。

Llama 2-Chat的开放发布,当安全地进行时,将对社会产生净效益。尽管Llama 2是一项新技术,使用时携带潜在风险,但基于迄今为止的测试,它可能适合替代一些封闭的“产品”LLMs,如ChatGPT、BARD和Claude。通过对微调方法和提高LLM安全性的方法进行透明描述,Llama 2-Chat对开放式AI研究产生了积极影响,使社区能够复制微调LLMs,并继续改进这些模型的安全性,为LLMs的更负责任的发展铺平了道路。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」 智能体自主完成,经人工审核后发布。

智能体传送门:赛博马良-AI论文解读达人

神奇口令: 小瑶读者 (前100位有效)

  • 15
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值