论文中文解析： Gemma: 基于 Gemini 研究和技术的开放模型 Gemma: Open Models Based on Gemini Research and Technology

最新推荐文章于 2025-03-15 08:48:20 发布

数智笔记

最新推荐文章于 2025-03-15 08:48:20 发布

阅读量2.3k

点赞数 24

分类专栏：经典论文概览文章标签：人工智能语言模型

本文链接：https://blog.csdn.net/wjjc1017/article/details/136230576

版权

经典论文概览专栏收录该内容

8 篇文章

订阅专栏

论文出处：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

Gemma 团队，Google DeepMind¹

本研究介绍了 Gemma，一系列基于 Gemini 模型的轻量级、最先进的开放模型。Gemma 模型在语言理解、推理和安全性等学术基准上表现出色。我们发布了两个规模的模型（20亿和70亿参数），并提供了预训练和微调的检查点。Gemma 在18个基于文本的任务中有11个超过了类似规模的开放模型，并且我们对模型的安全性和责任性进行了全面评估，同时详细描述了模型的开发过程。我们认为负责任地发布语言模型对于提高前沿模型的安全性、推动下一波语言模型创新至关重要。

引言

我们介绍了基于 Google 的 Gemini 模型（Gemini 团队，2023）的开放模型系列 Gemma。

我们使用与 Gemini 模型系列相似的架构、数据和训练方法，在多达6T个标记的文本上训练了 Gemma 模型。与 Gemini 一样，这些模型在文本领域具有强大的通用能力，并具备大规模的理解和推理能力。通过这项工作，我们发布了预训练和微调的检查点，以及用于推理和服务的开源代码库。

Gemma 有两个规模：一个70亿参数的模型，用于在 GPU 和 TPU 上进行高效部署和开发，以及一个20亿参数的模型，用于 CPU 和设备上的应用。每个规模都设计用于解决不同的计算约束、应用和开发者需求。在每个规模上，我们发布原始的预训练检查点，以及针对对话、遵循指令、帮助性和安全性进行微调的检查点。我们对我们的模型在一套定量和定性基准上的缺点进行了全面评估。我们相信发布预训练和微调的检查点将促进对当前指导调整方法影响的深入研究和调查，以及越来越安全和负责任的模型开发方法的发展。

相对于类似规模（甚至更大）的开放模型（Almazrouei 等人，2023；Jiang 等人，2023；Touvron 等人，2023a、b），Gemma 在广泛的领域中（包括自动化基准和人类评估）取得了最先进的性能。示例领域包括问答（Clark 等人，2019；Kwiatkowski 等人，2019）、常识推理（Sakaguchi 等人，2019；Suzgun 等人，2022）、数学和科学（Cobbe 等人，2021；Hendrycks 等人，2020）以及编码（Austin 等人，2021；Chen 等人，2021）。详细信息请参见评估部分。

与 Gemini 类似，Gemma 基于最近关于序列模型（Sutskever 等人，2014）和 Transformer（Vaswani 等人，2017）的工作，基于基于神经网络的深度学习方法（LeCun 等人，2015），以及大规模分布式系统上的训练技术（Barham 等人，2022；Dean 等人，2012；Roberts 等人，2023）。Gemma 还基于 Google 在开放模型和生态系统方面的悠久历史，包括 Word2Vec（Mikolov 等人，2013）、Transformer（Vaswani 等人，2017）、BERT（Devlin 等人，2018）以及 T5（Raffel 等人，2019）和 T5X（Roberts 等人，2022）。

我们认为负责任地发布语言模型对于提高前沿模型的安全性、确保公平获得这一突破性技术、推动对当前技术进行严格评估和分析，以及促进下一波创新的发展至关重要。尽管我们对所有 Gemma 模型进行了彻底的测试，但测试无法涵盖所有可能使用 Gemma 的应用和场景。因此，在部署或使用之前，所有 Gemma 用户都应对其特定用例进行严格的安全性测试。有关我们的安全性方法的更多详细信息，请参见负责任的部署部分。

图1 | Gemma 7B 在不同能力上的语言理解和生成性能，与类似规模的开放模型进行比较。我们将标准学术基准评估按能力分组，并对各项得分进行平均；详细性能细分请参见表6。

在本技术报告中，我们详细介绍了 Gemma 的模型架构、训练基础设施以及预训练和微调方法，随后对所有检查点在各种定量和定性基准以及标准学术基准和人类偏好评估中进行了全面评估。然后，我们详细讨论了我们的安全和负责任部署方法。最后，我们概述了 Gemma 的更广泛影响、其局限性和优势，并得出结论。

模型架构

Gemma 模型架构基于 Transformer 解码器（Vaswani 等人，2017）。架构的核心参数总结在表1中。模型在一个上下文长度为8192个标记上进行训练。

表1 | 关键模型参数。

表2 | Gemma 模型的参数数量。

我们还采用了原始 Transformer 论文之后提出的几项改进。以下是包括的改进：

多查询注意力（Shazeer，2019）。值得注意的是，7B 模型使用多头注意力，而2B 检查点使用多查询注意力（𝑛𝑢𝑚_𝑘𝑣_ℎ𝑒𝑎𝑑𝑠 = 1），基于消融研究结果表明各自的注意力变体在每个规模上都提高了性能（Shazeer，2019）。

RoPE 嵌入（Su 等人，2021）。我们使用旋转位置嵌入而不是绝对位置嵌入，在每个层中共享输入和输出的嵌入以减小模型大小。

GeGLU 激活函数（Shazeer，2020）。标准的 ReLU 非线性激活函数被 GeGLU 激活函数替代。

标准化位置。我们对每个 Transformer 子层的输入和输出进行归一化处理，与仅对其中一个进行归一化的标准做法不同。我们使用 RMSNorm（Zhang 和 Sennrich，2019）作为我们的归一化层。

训练基础设施

我们使用 TPUv5e 训练 Gemma 模型；TPUv5e 部署在由256个芯片组成的 pod 中，配置为16 x 16 个芯片的2D torus。对于7B 模型，我们在16个 pod 上训练模型，总共使用了4096个 TPUv5e。对于2B 模型，我们在2个 pod 上进行预训练，总共使用了512个 TPUv5e。在 pod 内部，我们使用16路模型分片和16路数据复制来训练7B 模型。对于2B 模型，我们只使用256路数据复制。优化器状态进一步使用类似 ZeRO-3 的技术进行分片。在 pod 之外，我们使用 Pathways 方法（Barham 等人，2022）通过数据中心网络进行数据复制和规约。

与 Gemini 一样，我们利用 Jax 的“单控制器”编程范式（Roberts 等人，2023）和 Pathways（Barham 等人，2022）简化开发过程，使单个 Python 进程能够编排整个训练过程；我们还利用 GSPMD 分区器（Xu 等人，2021）进行训练步骤计算和 MegaScale XLA 编译器（XLA，2019）。

碳足迹

我们估计预训练 Gemma 模型的碳排放量约为131 𝑡𝐶𝑂₂𝑒𝑞。这个值是根据我们 TPU 数据中心直接报告的每小时能源使用量计算得出的；我们还将这个值按比例缩放，以考虑创建和维护数据中心所需的额外能源消耗，从而得到我们训练实验的总能源使用量。我们通过将总能源使用量与数据中心报告的每小时每个芯片的碳排放数据进行匹配，将总能源使用量转换为碳排放量。

此外，Google 数据中心通过提高能源效率、购买可再生能源和进行碳抵消来实现碳中和。这种碳中和也适用于我们的实验和用于运行实验的机器。

预训练

训练数据

Gemma 2B 和 7B 分别在2T和6T个主要为英语的网络文档、数学和代码的标记上进行训练，这些模型不像 Gemini 那样是多模态的，也没有针对多语言任务的最先进性能进行训练。

过滤

我们对预训练数据集进行过滤，以减少不需要或不安全的话语，并过滤掉某些个人信息和其他敏感数据。这包括使用启发式和基于模型的分类器来删除有害或低质量的内容。此外，我们从预训练数据混合物中过滤出所有评估集，进行有针对性的污染分析，以检查评估集泄漏，并通过最小化敏感输出的扩散来降低重复朗读的风险。

最终的数据混合物是通过对2B和7B模型进行一系列消融实验确定的。与Gemini团队（2023）提倡的方法类似，我们在训练过程中分阶段调整语料库混合物，以增加与训练结束时相关的高质量数据的权重。

指令调优

我们使用纯文本、仅英文的合成数据和人工生成的提示-回应对对Gemma 2B和7B进行了监督微调（SFT），并使用基于标记的仅英文偏好数据训练的奖励模型和基于一组高质量提示的策略进行人类反馈的强化学习（RLHF）。我们发现这两个阶段对于提高模型在下游自动评估和人类偏好评估中的性能非常重要。

监督微调

我们根据基于语言模型的并行评估（Zheng等，2023）选择了监督微调的数据混合物。给定一组保留的提示，我们从测试模型生成回应，从基线模型上相同的提示上生成回应，将这些回应随机打乱，并要求一个更大、更高能力的模型在两个回应之间表达偏好。不同的提示集被构建出来以突出特定的能力，比如遵循指令、事实性、创造力和安全性。我们使用的不同自动语言模型评估器采用了一些技术，比如思维链提示（Wei等，2022）和使用规则和宪法（Bai等，2022）来与人类偏好保持一致。

过滤

在使用合成数据时，我们对其进行了几个阶段的过滤，删除显示某些个人信息、不安全或有毒的模型输出、错误的自我识别数据或重复的示例。根据Gemini的研究，我们发现包含鼓励更好的上下文归因、避免幻觉的遁辞和拒绝的数据子集可以改善几个事实性指标的性能，而不会降低模型在其他指标上的性能。

最终的数据混合物和监督微调配方（包括调整后的超参数）是基于提高帮助性的基础上选择的，同时最小化与安全性和幻觉相关的模型危害。

格式化

指令调优模型使用特定的格式化程序，在训练和推理时为所有指令调优示例添加额外信息。它有两个目的：

1）指示对话中的角色，如用户角色；2）在对话中划分回合，特别是在多轮对话中。标记器中保留了特殊的控制标记用于此目的。虽然可能在没有格式化程序的情况下获得连贯的生成结果，但对于模型来说，这将是超出分布范围的，很可能会产生更差的生成结果。

表3中列出了相关的格式化控制标记，表4中列出了一个对话示例。

表3 | 用于Gemma模型的SFT和RLHF的相关格式化控制标记。

从人类反馈中的强化学习

我们进一步使用RLHF对监督微调模型进行微调（Christiano等，2017；Ouyang等，2022）。我们从人类评分者那里收集了偏好对，并在布拉德利-特里模型（Bradley和Terry，1952）下训练了一个奖励函数，类似于Gemini。使用REINFORCE的变体（Williams，1992）以及对初始调优模型的Kullback-Leibler正则化项，训练策略以优化此奖励函数。与SFT阶段类似，并为了调整超参数和进一步减轻奖励作弊（Amodei等，2016；Skalse等，2022），我们依靠一个高容量模型作为自动评分器，并与基线模型进行并排比较。

表4 | 带有用户和模型控制标记的对话示例。

评估

我们通过自动化基准测试和人类评估来评估Gemma在广泛领域的性能。

人类偏好评估

除了在微调模型上运行标准学术基准测试外，我们还将最终发布的候选版本发送到人类评估研究中，与Mistral v0.2 7B Instruct模型（Jiang等，2023）进行比较。

在一组约1000个提示的保留集上，这些提示旨在要求模型在创意写作任务、编码和遵循指令方面进行操作，Gemma 7B IT的正面胜率为51.7%，Gemma 2B IT的胜率为41.6%，超过了Mistral v0.2 7B Instruct。在一组约400个提示的保留集上，这些提示旨在测试基本安全协议，Gemma 7B IT的胜率为58%，而Gemma 2B IT的胜率为56.5%。我们在表5中报告了相应的数据。

表5 | Gemma模型与Mistral 7B v0.2 Instruct的胜率及其95%置信区间。我们报告了胜利、平局和失败的细分，并在报告最终胜率时平均分配平局。

自动化基准测试

我们在包括物理推理（Bisk等，2019）、社交推理（Sap等，2019）、问答（Clark等，2019；Kwiatkowski等，2019）、编码（Austin等，2021；Chen等，2021）、数学（Cobbe等，2021）、常识推理（Sakaguchi等，2019）、语言建模（Paperno等，2016）、阅读理解（Joshi等，2017）等领域评估Gemma模型的性能。

对于大多数自动化基准测试，我们采用了与Gemini相同的评估方法。特别是对于与Mistral进行性能比较的基准测试，我们尽可能地复制了Mistral技术报告中的方法。这些具体的基准测试包括：ARC（Clark等，2018）、CommonsenseQA（Talmor等，2019）、Big Bench Hard（Suzgun等，2022）和AGI Eval（仅英文）（Zhong等，2023）。由于限制性许可，我们无法对LLaMA-2进行任何评估，只引用了之前报告的指标（Touvron等，2023b）。

我们将Gemma 2B和7B模型与几个外部开源（OSS）LLM在一系列学术基准测试中进行了比较，结果见表6。

在MMLU（Hendrycks等，2020）上，Gemma 7B的性能优于同样规模的所有OSS替代品；它还超过了几个更大的模型，包括LLaMA2 13B。然而，基准作者对人类专家的性能评估为89.8%；由于Gemini Ultra是第一个超过这个阈值的模型，因此仍有很大的改进空间，以实现Gemini和人类级别的性能。

表6 | 学术基准测试结果，与在通用英文文本数据上训练的相同规模的开放模型进行比较。^(†) Mistral在MBPP的不同分割上报告了50.2，在我们的分割上，我们的7B模型达到了54.5。^(∗) 由我们进行的评估。请注意，由于限制性许可，我们无法对LLaMA-2进行评估；上述所有值均在Touvron等（2023b）中进行了先前报告。

Gemma模型在数学和编码基准测试中表现特别出色。在数学任务中，这些任务通常用于评估模型的一般分析能力，Gemma模型在GSM8K（Cobbe等，2021）和更困难的MATH（Hendrycks等，2021）基准测试上的表现至少比其他模型高10个点。同样，在HumanEval（Chen等，2021）上，它们比其他开放模型的表现至少高出6个点。甚至在MBPP上，它们的表现也超过了经过代码微调的CodeLLaMA-7B模型（CodeLLaMA得分为41.4%）。

记忆评估

我们使用与Anil et al. (2023)相同的方法来测试Gemma预训练模型的记忆能力¹。我们从每个语料库中随机抽取10,000个文档，并将前50个标记作为模型的提示。我们主要关注精确记忆，即如果模型生成的后续50个标记与文本中的真实续写完全匹配，则将文本分类为已记忆。然而，为了更好地捕捉可能的释义记忆，我们还使用了10%的编辑距离阈值进行近似记忆（Ippolito et al.，2022）。在图2中，我们将我们的评估结果与最接近规模的PaLM (Chowdh- ery et al.，2022)和PaLM 2模型 (Anil et al.，2023)进行了比较。

表7 | HuggingFace H6基准测试。小型模型的性能对小规模的变化非常敏感。

图2 | 比较不同模型系列的平均记忆率。我们将Gemma预训练模型与PaLM和PaLM 2模型进行比较，发现记忆率都很低。

逐字记忆 通过在它们的训练语料库的共享子集上进行评估，我们将PaLM 2与PaLM进行了比较。然而，Gemma的预训练数据与PaLM模型之间的重叠更少，因此使用相同的方法，我们观察到记忆率要低得多（图2左侧）。相反，我们发现在整个预训练数据集上估计“总记忆”可以得到更可靠的估计结果（图2右侧），在这里我们发现Gemma以与PaLM相当的速度记忆训练数据。

图3 | 测量个人和敏感数据的记忆率。没有记忆到敏感数据，因此在图中省略了该部分。

个人数据 更重要的是个人数据可能被记忆。为了使Gemma预训练模型安全可靠，我们使用自动化技术从训练集中过滤出某些个人信息和其他敏感数据。

为了识别可能出现的个人数据，我们使用Google Cloud数据泄漏预防（DLP）工具²。该工具根据许多个人数据类别（例如姓名、电子邮件等）输出三个严重级别。我们将最高严重级别分类为“敏感”，其余两个级别分类为“个人”。然后，我们测量有多少记忆输出包含任何敏感或个人数据。如图3所示，我们没有发现任何记忆到敏感数据的情况。我们确实发现模型记忆了一些我们根据上述分类为“个人”的数据，尽管通常记忆率要低得多。此外，值得注意的是，这些工具已知有许多误报（因为它们只匹配模式，而不考虑上下文），这意味着我们的结果很可能高估了识别到的个人数据量。

表8 | 安全学术基准测试结果，与大小相似的公开可用模型进行比较。^(∗)由我们进行的评估。请注意，由于限制性许可，我们无法在LLaMA-2上运行评估；我们不报告以前发布的LLaMA-2在TruthfulQA上的数字，因为我们使用了不同的、不可比较的评估设置（我们使用MC2，而LLaMA-2使用GPT-Judge）。

负责任的部署

与Google的AI技术之前的发布（Gemini Team，2023；Kavukcuoglu et al.，2022）一样，我们遵循一种负责任的开发和部署模型的结构化方法，以识别、衡量和管理可预见的社会影响。与我们最近发布的Gemini一样，这些方法是基于有关语言模型风险的先前学术文献（Weidinger et al.，2021）、行业内进行的类似练习的发现（Anil et al.，2023）、与内部和外部专家的持续合作，以及发现模型漏洞的非结构化尝试。

图4 | 比较精确和近似记忆。

近似记忆 在图4中，我们观察到大约有50%的数据被近似记忆（注意对数刻度），并且在数据集的每个不同子类别中几乎保持一致。

好处

我们相信，在AI科学和技术中的开放性可以带来重大的好处。在大多数情况下，开源是科学和创新的重要推动力，也是一种负责任的做法。但这需要与提供工具以在现在或将来造成伤害的风险之间取得平衡。

Google长期致力于提供对成功研究创新（GraphCast、Transformer、BERT、T5、Word2Vec）的更广泛访问，并且我们相信将Gemma发布到AI开发生态系统中将使下游开发者能够创建许多有益的应用，涉及科学、教育和艺术等领域。我们的指导调优产品应该鼓励各种开发者利用Gemma的聊天和代码功能来支持他们自己的有益应用，同时允许进行自定义微调以使模型的能力适应特定的用例。为了确保Gemma支持各种开发者需求，我们还发布了两种模型尺寸，以最佳地支持不同的环境，并在多个平台上提供了这些模型（有关详细信息，请参见Kaggle）。以这种方式广泛提供Gemma的访问权限应该降低新创企业或独立开发者在将这些技术纳入他们的工作流程时面临的经济和技术壁垒。

除了为开发者提供我们的指导调优模型之外，我们还提供了对应的基础预训练模型的访问权限。通过这样做，我们的目标是鼓励进一步的AI安全研究和社区创新，为开发者提供更广泛的模型选择，以构建各种透明度和可解释性研究方法，这些方法已经使社区受益（Pac- chiardi et al.，2023；Zou et al.，2023）。

风险

除了为AI开发生态系统带来好处外，我们意识到LLM的恶意使用，例如制作深度伪造图像、AI生成的虚假信息以及非法和令人不安的材料，可能会对个人和机构造成伤害（Weidinger et al.，2021）。此外，提供模型权重的访问权限，而不是在API后面发布模型，对负责任的部署提出了新的挑战。

首先，尽管使用Gemma模型的使用受到禁止违反我们的Gemma禁止使用政策的使用条款的限制，但我们无法阻止恶意用户对Gemma进行恶意调优。然而，我们意识到需要进一步努力构建更强大的应对开放系统意图滥用的缓解策略，Google DeepMind将继续在内部和与更广泛的AI社区合作中探索这方面的工作。

我们面临的第二个挑战是保护开发者和下游用户免受开放模型的意外行为的影响，包括生成有害语言、持续性的歧视性社会伤害、模型幻觉和个人可识别信息的泄露。在将模型部署在API后面时，可以通过各种过滤方法减少这些风险。

缓解措施

由于Gemma系列模型没有这种防御层，我们努力通过过滤和测量预训练数据中的偏见来防范这些风险，这与Gemini方法一致，通过标准化的AI安全基准测试评估安全性，进行内部红队测试以更好地了解Gemma的外部使用风险，并对模型进行严格的伦理和安全评估，其结果可以在8中看到。

虽然我们在改进模型方面投入了大量精力，但我们也意识到它的局限性。为了确保对下游用户透明，我们发布了一份详细的模型卡片，以便研究人员更全面地了解Gemma。

我们还发布了一个生成AI负责任工具包，以支持开发者负责任地构建AI。这包括一系列资产，帮助开发者设计和实施负责任的AI最佳实践，并确保其用户的安全。

开放权重模型的相对新颖性意味着仍在发现这些模型的新用途和误用，这就是为什么Google DeepMind致力于在未来的模型开发中持续研究和开发强大的缓解策略的原因。

评估

未来展望

作为指导原则，Google DeepMind 致力于采取与我们模型潜在风险相称的评估和安全缓解措施。在这种情况下，尽管我们确信 Gemma 模型将为社区带来净益，但我们对安全性的强调源于此次发布的不可逆性。由于开放模型带来的危害尚未明确定义，也不存在针对此类模型的既定评估框架，我们将继续遵循这一先例，采取审慎和谨慎的开放模型开发方式。随着能力的提升，我们可能需要探索扩展测试、分阶段发布或替代访问机制，以确保负责任的 AI 发展。

随着生态系统的演变，我们敦促更广泛的 AI 社区超越简单的“开放 vs. 封闭”辩论，并避免夸大或淡化潜在危害，因为我们相信对风险和利益进行细致、协作式的处理至关重要。在 Google DeepMind，我们致力于开发高质量的评估，并邀请社区加入我们的努力，以更深入地理解 AI 系统。

讨论与结论

我们介绍了 Gemma，一个可供公开使用的生成式语言模型家族，用于文本和代码。Gemma 推动了公开可用语言模型性能、安全性和负责任开发的最新进展。

特别地，我们相信 Gemma 模型将为社区带来净益，鉴于我们进行了广泛的安全评估和缓解措施；然而，我们承认这一发布是不可逆的，开放模型带来的危害尚未明确定义，因此我们继续采取与这些模型潜在风险相称的评估和安全缓解措施。此外，我们的模型在 6 个标准安全基准测试中表现优于竞争对手，并在人类对比评估中也表现出色。

Gemma 模型在对话、推理、数学和代码生成等广泛领域的性能均有所提升。在 MMLU（64.3%）和 MBPP（44.4%）上的结果既展示了 Gemma 的高性能，也展示了公开可用 LLM 性能仍有提升空间。

除了在基准任务上的最新性能指标之外，我们对社区可能出现的新用例和随着我们共同推进领域发展而出现的新能力感到兴奋。我们希望研究人员利用 Gemma 加速各种研究，也希望开发人员创建有益的新应用、用户体验和其他功能。

Gemma 受益于 Gemini 模型计划的许多经验教训，包括代码、数据、架构、指令调整、来自人类反馈的强化学习以及评估。正如 Gemini 技术报告中所讨论的，我们重申了对 LLM 使用的一系列限制（非穷尽）。即使在基准任务上表现出色，仍需要进一步研究以创建可靠执行预期功能的强大、安全的模型。例如，进一步研究领域包括事实性、对齐性、复杂推理以及对抗性输入的稳健性。正如 Gemini 所讨论的，我们注意到需要更具挑战性和稳健性的基准测试。