Llama 2: Meta开源的基础和调优对话模型

194 篇文章 0 订阅
185 篇文章 1 订阅

这是23年7月Meta发布开源大语言模型的论文“Llama 2: Open Foundation and Fine-Tuned Chat Models“。

Llama 2是一个预训练和微调的大型语言模型(LLM)集,其规模从70亿到700亿个参数不等。微调的LLM,称为Llama 2-Chat,针对对话用例进行了优化。在测试的大多数基准测试中,该模型优于开源聊天模型,并且基于有用性和安全性的人工评估,可能是闭源模型的合适替代品。本文详细介绍Llama 2-Chat进行微调和安全改进的方法,使社区能够在该工作基础上再接再厉,并为LLM的负责任发展做出贡献。

大型语言模型(LLM)作为能力强大的人工智能助手,在需要广泛领域专家知识的复杂推理任务中表现出了巨大的前景,包括在编程和创造性写作等专业领域。通过直观的聊天界面实现了与人类的互动,这导致了公众的迅速和广泛地采用。

考虑到训练方法看似简单明了,LLM的能力是非凡的。自回归transformer是在广泛的自监督数据语料库上进行预训练的,然后通过人类反馈强化学习(RLHF)等技术与人类倾向性相一致。尽管训练方法很简单,但高计算要求将LLM的开发限制在少数玩家。

已经公开发布了与GPT-3(Brown2020)和Chinchilla(Hoffmann2022)等封闭的预训练竞争对手性能相匹配的预训练LLM,如BLOOM(Scao2022)、LLaMa-1(Touvron2023)和Falcon(Penedo2023),但还是不及替代相近的“产品”LLM,如ChatGPT, Bard, 和 Claude。这些封闭式产品LLM经过了大量微调,符合人类的偏好,这大大提高了可用性和安全性。这一步骤可能需要大量的计算和人工标注成本,而且往往不透明或不容易重复,限制了社区内推进人工智能对齐研究的进展。

这项工作开发并发布Llama 2,一个经过预训练和微调的LLM家族,Llama2和Llama 2-Chat,其参数范围高达70B。在测试的一系列有用性和安全性基准测试中,Llama 2-Chat模型通常比现有的开源模型表现更好。似乎也与一些闭源模型不相上下,至少进行的人类评估是如此。已经采取措施提高这些模型的安全性,使用特殊安全的数据标注和调整,以及采用红队对抗和迭代评估。

此外,本文对改进LLM安全性的微调方法和方法进全面的描述。这种开放性将使社区能够复制经过微调的LLM,并继续提高这些模型的安全性,为LLM更负责任的开发铺平道路。在最后还分享了在Llama 2和Llama 2-Chat开发过程中所做的新观察现象,例如工具使用的涌现和时域组织的知识。

如图是Llama2-chat的训练框图:此过程从公开可用的在线资源对Llama2 进行预训练开始。在此之后,通过应用监督微调来创建 Llama 2-Chat 的初始版本。随后,用人类反馈强化学习(RLHF)方法迭代优化模型,特别采用拒绝抽样(rejection sampling)和近策略优化(PPO)。在整个RLHF阶段,迭代奖励建模数据的积累与模型增强并行化,这对于确保奖励模型保持在分布范围内至关重要。

添加图片注释,不超过 140 字(可选)

Llama 2 系列模型如表所示。token计数仅指预训练数据。所有模型都使用全局批处理量4M token进行训练。更大的模型(34B 和 70B)使用分组查询注意 (GQA) 来提高推理规模化能力。

添加图片注释,不超过 140 字(可选)

如图是Llama2 模型的训练损失。比较Llama 2 系列模型的训练损失,可观察到,在对 2T token进行预训练后,模型仍然没有显示出任何饱和的迹象。

添加图片注释,不超过 140 字(可选)

与开源基础模型相比,分组学术基准方法测试的总体性能如图所示:代码、常识推理、世界知识、阅读理解、数学和流行基准等。

添加图片注释,不超过 140 字(可选)

在对话设置中,一些指令应该适用于所有对话,例如,简洁地回应,或“充当”某个公众人物。当向Llama 2-Chat提供此类说明时,后续响应应始终遵守约束。然而,最初的RLHF模型往往会在几轮对话后忘记最初的指令。为了解决这些限制,Llama-2提出了幽灵注意(GAtt),这是一种非常简单的方法,灵感来自上下文蒸馏(Bai2022b),破解微调数据,帮助注意集中在多阶段过程中。GAtt 支持对多轮对话控制。如图所示即多轮对话的内存(左边)的问题可以通过 GAtt(右边)得到改善。

添加图片注释,不超过 140 字(可选)

相关工作回顾:

大型语言模型。近年来,LLM领域发生了重大变化。根据所谓规模化定律(Kaplan2020),已经提出几个参数超过100B的大型语言模型,从GPT-3(Brown2020)到Gopher(Rae2022),或者用于科学的专门模型,例如Galactica(Taylor2021)。用70B参数,Chinchilla(Hoffmann2022)将这些规模化定律重新定义为tokens数量,而不是模型权重。在这一进展中值得注意的是Llama的兴起,专注于推理过程中的计算效率而受到认可(Touvron2023)。

围绕开源与闭源模型的动态展开了一场平行的讨论。BLOOM(Scao 2022)、OPT(Zhang2021)和Falcon(Penedo2023)等开源版本已经开始挑战GPT-3和Chinchilla等闭源版本。然而,当谈到“生产就绪”LLM时,如ChatGPT、Bard和Claude,在性能和可用性方面存在显著差异。这些模型依赖于复杂的调整技术来与人类偏好保持一致(Gudibande2023),这一过程仍在开源社区中探索和完善。

缩小这一差距的尝试已经出现,基于蒸馏的模型,如Vicuna(Chiang2023)和Alpaca(Taori2021),采用一种独特的方法用合成指令进行训练(Honovich2022;Wang2022)。然而,尽管这些模型显示出了前景,但仍然达不到闭源同行设定的标准。

指令微调。(Wei2021)通过在大量数据集上微调LLM,获得了在未见任务的零样本性能。(Chung 2022)和(Longpre2023)研究指令细调对任务数量、模型大小、提示设置等的影响。用于指令细调的提示可以由人类或LLM自己创建(Zhou2022),后续指令可以用于细化初始的一代,使其更有用更具吸引力和无偏见(Ganguli2023;Madaan2022)。与指令细调相关的一种方法是思维链(COT)提示(Wei2022b),这种方法遇到复杂问题时,会提示模型解释其推理,增加其最终答案正确的可能性。

RLHF已成为微调LLM的强大策略,使其性能得到显著改善(Christiano2017)。在文本摘要任务的背景下,(Stiennon2020)首次展示了该方法。该方法已扩展到一系列其他应用。在这种范式中,模型是根据人类用户的反馈进行微调的,从而迭代地将模型的响应与人类的期望和偏好更紧密地对齐。

(Ouyang2022)证明,指令微调和RLHF的结合可以帮助解决事实性、毒性和有用性问题,而这些问题无法通过简单地扩大LLM来解决。(Bai 2022b)用模型自我批评和修改替换人类标注微调的数据,在RLHF对模型输出进行排名时,用模型替换人类评分者,部分自动化这种微调-RLHF的方法,而这一过程被称为“带AI反馈的RL”(RLAIF)。

已知LLM安全挑战。最近文献广泛探讨与大语言模型相关的风险和挑战。(Bender2021b)和(Weidinger2021)强调各种危害,如偏见、有害、私人数据泄露和恶意使用的可能性。(Solaiman2023)将这些影响分为两组——可以在基本系统内评估的影响和需要社会背景评估的影响,而(Kumar2022)提供了遏制危害的潜在缓解策略。(Roller2020)和(Dinan2021)的工作也阐明与聊天机器人相关LLM的困难,关系到隐私和误导性的专业知识声明。(Deng2023)提出一个分类框架来解决这些问题,(Bergman 2022)深入研究的是,发布对话模型可能产生的积极和消极影响之间的平衡。

对红队的调查揭示了微调LLM的具体挑战,(Ganguli2022)的研究和(Zhuo2023)的研究展示了各种成功的攻击型及其对生成有害内容的影响。国家安全机构和各种研究人员,如(Mialon2023),也对先进的涌现模型行为、网络威胁和生物战等领域的潜在滥用发出了警告。最后,更广泛的社会问题,如人工智能研究加速导致的工作岗位流失和过度依赖LLM导致训练数据退化,也是相关的考虑因素(Acemoglu & Restrepo2018;Autor & Salomons2018;Webb2019;Shumailov2023)。

注:24年4月已经发布LLaMA 3版本。同年7月份LLaMA 3.1版发布。

  • 18
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值