合并、集成和合作：大语言模型时代的协作策略综述

硅谷秋水

已于 2024-07-15 23:30:30 修改

阅读量367

点赞数 15

分类专栏：大模型人工智能机器学习文章标签：语言模型人工智能自然语言处理

于 2024-07-15 12:55:51 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/140435839

版权

大模型同时被 3 个专栏收录

326 篇文章 1 订阅

订阅专栏

人工智能

170 篇文章 0 订阅

订阅专栏

机器学习

165 篇文章 1 订阅

订阅专栏

24年7月来自中科院自动化所、中科大、南京科大和武汉AI研究院的论文“Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models”。

大语言模型 (LLM) 的巨大成功将自然语言处理 (NLP) 研究带入了一个新时代。尽管 LLM 功能各异，但在不同语料库上训练的 LLM 表现出不同的优点和缺点，导致在最大限度地提高其整体效率和多功能性方面面临挑战。为了应对这些挑战，最近的研究探索 LLM 的协作策略。本文全面概述这一新兴研究领域，强调了这种协作背后的动机。具体来说，协作策略分为三种主要方法：合并、集成和合作。合并涉及在参数空间中集成多个 LLM。集成结合各种 LLM 的输出。合作利用不同的 LLM 充分发挥其针对特定任务的不同功能。从不同角度深入介绍这些方法，并讨论潜在应用。此外，概述未来的研究方向。

人类早已了解合作的力量。当个人汇集各种技能和努力时，他们可以取得比独自一人更大的成就。这种集体努力的原则在机器学习领域找到了新的意义（Dietterich，2000；Panait & Luke，2005；Sagi & Rokach，2018），极大地促进了人工智能的发展。

近年来，大语言模型 (LLM)（Brown，2020；Chowdhery，2023）已成为人工智能领域发展最快、最有前途的方向之一。这些模型极大地改变了自然语言处理 (NLP) 的范式（Min，2023a；Chang，2024；Zhao，2023）并影响了其他领域（Wu，2023a；Zhang，2024a）。这场令人印象深刻的革命激发了众多大学、研究所和公司对 LLM 进行预训练并发布模型。

目前，HuggingFace 模型中心上有超过 74,000 个预训练模型。如图所示，这些使用各种数据、架构和方法训练的模型具有独特的功能：一些模型精通多语言任务（Le Scao，2023；Lin，2022），其他模型专注于医学（Yang ，2024b）或金融（Wu，2023b）等领域，一些模型擅长处理长上下文窗口（Chen，2023e、f），而另一些模型经过微调以更好地与人机交互保持一致（Ouyang，2022）。然而，没有一个模型能够在所有任务中始终优于其他模型 (Jiang et al., 2023a)。这种多变性促使人们研究各种 LLM 之间的协作，以释放它们的综合潜力，就像创造一个六边形战士一样。

请添加图片描述

对于以前的任务依赖型 NLP 模型，协作策略通常旨在提高特定任务的性能 (Jia，2023)。最近，LLM 通过在各种任务中展示出非凡的多功能性，彻底改变了 NLP。这种转变也将 LLM 协作策略的重点转向提高多功能性和实现更一般的目标。因此，一些最近提出的协作策略变得更加灵活，并专门针对 LLM 量身定制。

LLM 协作的必要性虽然几乎所有的 LLM 都通过上下文学习（ICL）和指令遵循在各种任务中表现出强大的多功能性，但不同的 LLM 仍然具有不同的优势和劣势 (Jiang，2023a)。

不同 LLM 系列（例如 LLaMA、GLM（Zeng，2023）和 QWen（Bai，2023））之间的训练语料库和模型架构差异，导致其功能存在显著差异。即使在同一个系列中，对特定语料库（例如数学（Azerbayev，2023）、代码（Roziere，2023）或医学领域（Wu，2024））进行微调也会导致明显的性能差异。这些 LLM 之间的有效协作可以充分发挥其潜力，显著提高其整体性能和多功能性。

此外，LLM 不可避免地会受到计算效率低下 (Zhou, 2024c)、幻觉 (Rawte, 2023; Ji, 2023; Huang, 2023) 和隐私泄露 (Fan (2024)) 的影响。最近的研究探索了 LLM 之间的协作策略，这为缓解这些问题和弥补其缺点提供了潜在的解决方案。

LLM 之间的协作是指多个 LLM 共同工作，利用各自的优势和能力实现共同目标的过程。LLM 协作方法分为三个方面：合并、集成和合作，如图所示：

合并涉及将多个 LLM 集成为一个统一的、更强大的 LLM，主要通过模型参数空间中的算术运算。

集成将不同模型的输出结合起来以获得一致的结果。最近的研究提出了各种针对 LLM 的集成方法。

合作是一个相对广泛的概念。本调查重点关注利用不同 LLM 的不同功能来实现特定目标（例如高效计算或知识迁移）的合作方法。

请添加图片描述

需要注意的是，随着从合并、到集成、再到合作，对 LLM 的要求逐渐放宽，使得所提出的方法越来越灵活。具体而言，只有当 LLM 共享兼容的参数空间时，合并方法才会有效，从而实现无缝集成。集成方法要求 LLM 具有多样化但可比的能力；如果没有这种平衡，集成可能会不那么有效。相比之下，合作方法更灵活，专注于利用具有各种功能的 LLM，这些功能是专门为实现特定目标而设计的。

对于每个类别，根据其重点或实施阶段进一步对特定方法进行分类。综合分类如图所示：

请添加图片描述

合并

单一模型具有固有的局限性，例如可能缺少重要信息（Sagi & Rokach，2018），并且容易陷入局部最优或缺乏多任务能力。

为了解决这些限制，研究人员探索了模型合并方法，该方法将参数空间中的多个模型组合在一起以创建统一的、更强大的模型。近年来，模型合并取得了重大进展，现有综述中列出了各种技术（Li，2023a）。在 LLM 时代，模型合并已成为模型协作的重要解决方案，通常采用基本的合并方法并证明其有效性。

当前对模型合并的研究通常关注两个关键问题：合并以接近相对最优解（M-ROS）和合并以增强多任务能力（M-MTC）。 M-ROS 的研究基于这样的发现：梯度优化解决方案通常收敛在宽阔平坦区域的边界附近，而不是中心点 (Izmailov，2018)。模型合并提供了一种接近这个相对最优点的方法，从而产生更强大的模型。另一方面，M-MTC 旨在利用模型合并技术丰富单个模型，使其具有跨多个任务的功能 (Ilharco，2023；Yadav，2023)。

值得注意的是，对于 M-ROS 和 M-MTC，当前的模型合并方法仅适用于具有相同架构和参数的同一空间内的模型。因此，大多数合并候选模型应使用相同的初始化进行训练。例如，候选模型 M = {M1, M2, · · · , Mk} 应从同一个预训练模型 M0 进行微调。此要求确保模型参数之间的兼容性和一致性，从而促进成功合并。不幸的是，对于参数不兼容的模型，例如 LLaMA 和 QWen，当前的合并技术无效。

M-ROS

机器学习模型，特别是深度学习模型，在训练过程中经常无法精确地得到最优解 (Li et al., 2023a)。研究人员已经证明，现代深度神经网络的局部最优点由简单的曲线连接起来，沿着这些曲线的路径可以保持接近恒定的训练和测试精度。这表明权重空间中的不同局部最优点并不是孤立的，而是可以通过低损失路径连接起来的 (Garipov, 2018)。通过加权平均方法得到的模型可以看作是低损失路径上的一个点。参数平均通过对各个局部最优点进行平均，整合了不同模型的优点，降低了单个模型的偏差和方差 (Rame et al., 2022)。为了提高模型性能，M-ROS 方法被提出。这些方法旨在组合多个模型的参数，将相对优化的点合并为一个更优的点。这些方法分为两类：简单平均和加权平均。虽然这些技术最初是为小型深度模型开发的，但它们对 LLM 也有效。

M-MTC

最近，一些研究尝试合并具有不同能力的模型，以构建具有多任务能力的统一模型（Li，2022）。通常，这些模型是从同一个预训练模型微调而来的，但使用不同的任务特定数据，导致其参数空间出现分歧。这种分歧通常反映了与任务相关的信息。因此，M-MTC 方法旨在缓解分歧并实现具有不同能力的模型的平衡合并，从而产生能够处理多个任务的单一模型。

早期研究通过对各种模型使用不同的合并系数来解决分歧问题，即加权平均，而当前的研究倾向于从分歧中提取任务属性以实现更灵活的合并。此外，最近的研究已经开始采用增量学习技术来提高模型合并性能。

一些研究采用加权平均策略来调整不同模型的重要性。Jin（2022）提出使用RegMean选择性地合并Transformer模型的线性层，同时对其他层使用简单平均，从而最小化合并模型与在不同数据集上微调的多个模型之间的差异。Daheim（2023）主张使用基于Hessian矩阵的估计值来细化模型合并，以便更精确地调整模型参数。Nathan（2024）将Fisher加权平均与模型剪枝相结合，实现了高效的模型合并。

基于加权平均的合并方法强调了参数的重要性，但忽略了它们的任务特定属性，导致某些任务的性能显著下降。Ilharco (2023) 发现“简单平均会导致 10% 的性能下降”。为了解决这个问题，最近的研究引入一种称为任务向量的新范式。Ilharco (2023) 将任务向量 τt 定义为“一个向量，指定预训练模型参数空间中的方向，这样朝该方向移动可以提高任务的性能”。

任务向量可以更有效地解决模型合并过程中的参数冲突。如图所示，以预训练模型为参考，微调模型任务向量方向的变化，表明参数空间中存在冲突。为了解决参数冲突问题，最近的研究旨在探索缓解冲突的方法并在不同模型之间取得平衡。参数冲突方法解决参数相同位置的参数冲突，而较少参数方法识别和修剪冗余参数以减少冲突。

最近，Goddard（2024）开发了 Arcee 的 MergeKit （https://github.com/arcee-ai/mergekit ），这是一个开源工具包，集成了各种模型合并方法，包括 Model Soups、DARE 和 TIES-MERGING。该工具包大大推进了模型合并策略在 LLM 中的应用。

上述方法仍然存在性能下降的问题。因此，提出了几种涉及增量训练的方法来恢复其原始性能。Concrete TA/AM（Tang，2023）旨在在模型参数空间内找到一个共享的低维子空间，以最小化任务干扰而不会显着影响性能。Surgery（Yang，2024a）引入了一种表征手术技术来减轻多任务模型融合中的表征偏差。

集成

集成学习是另一种有效的协作策略，它不同于模型合并方法，它侧重于模型输出的组合。Adaboost（Freund & Schapire，1997）、Bagging（Breiman，1996）和 Stacking（Wolpert，1992）等传统技术，极大地推动了机器学习研究。在 LLM 时代，集成学习仍然至关重要，可以提高各种 LLM 的整体性能。

然而，LLM 通常通过文本生成来解决各种任务，从而产生更灵活、更自然的表达输出。因此，为分类任务设计的传统集成方法不能直接应用于 LLM。为了解决这个问题，许多研究探索了针对各种 LLM 量身定制的特定集成方法。此外，集成学习的好处激发了对这些技术各种应用的研究。

对于不同的输入，表现最佳的 LLM 并不总是相同的，这促使人们对 LLM 的集成方法进行了广泛的研究。与基于分类的机器学习模型不同，LLM 通常生成一系列tokens作为输出。此输出通常是离散的，这使得直接集成具有挑战性。此外，各种 LLM 之间的结构差异导致词汇表和输出分布难以统一，这进一步复杂化了集成策略（Xu，2024b）。

由于集成通常发生在推理期间，对推理期间之前、期间和之后采用的现有集成方法进行分类和介绍。如图所示，推理前的集成方法针对不同的输入示例选择最合适的 LLM，推理期间的集成方法在每个解码步骤中组合输出，推理后的集成方法旨在从各种 LLM 生成的多个输出中选择最佳响应。

请添加图片描述

推理前的集成

此类方法旨在在推理之前为特定示例选择最佳的 LLM。与从头开始学习稀疏网络的各种混合专家 (MOE) 方法 (Jacobs，1991；Collobert，2003；Eigen，2013；Fedus，2022；Jiang，2024) 类似但不同，集成前推理专注于为几个预训练的 LLM 训练外部路由器 (Rosenbaum，2017)，以实现最佳 LLM 选择。

Shnitzer (2023) 率先使用各种基准数据集探索学习路由器的可行性和局限性。
Lu (2023) 引入了 ZOOTER，该系统首先采用奖励模型，使用训练集计算查询-输出对的分数。然后，这些分数被用于使用知识蒸馏策略训练路由器，使其能够仅根据输入查询选择最佳 LLM。
Ding (2024) 使用一种路由器，根据预测的查询难度和所需的质量水平将查询分配给小模型或 LLM，从而显著降低推理成本。
Srivatsa (2024) 研究了基于分类器和基于聚类的 LLM 路由方法可行性。
受强化学习中自我对弈的启发，Mohammadshahi (2024) 通过循环自生成三元组（查询、响应、分数）来训练路由器。
与之前的研究不同，Lu (2024) (2024c) 通过在对话每个回合随机选择一个 LLM 来集成多个聊天 LLM，而不是学习路由器。
为了有效地评估路由器的能力和局限性，Hu (2024) 提出了一个新的基准 ROUTERBENCH，主要关注性能和经济成本。

推理期间的集成

在推理期间，LLM 会自回归地生成tokens。此过程通常会导致早期错误随着时间的推移而累积，从而导致后续tokens偏离预期含义 (Ranzato，2016) 并导致幻觉 (Zhang，2023a)。

为了解决这个问题，一些研究在每个解码步骤执行集成 LLM。

Li (2024c) 通过对输出分布进行加权平均，将不受信任的 LLM 与良性的较小 LLM 相结合，从而缓解侵权、数据中毒和隐私侵犯等问题。
Hoang (2023) 对机器翻译模型和 LLM 的输出分布进行插值，从而提高翻译性能。
Wang (2024b) 制定了节俭的专家融合问题，并提出了一种有效的融合方法，将其作为图最短路径问题来解决。这些方法要求集成发生在必须至少具有相同词汇的 LLM 之间。此限制确保输出分布对齐并能有效插值。

然而，大多数开源 LLM 都是异构的，具有不同的词汇表，阻碍了直接集成。

为了解决这个问题，Fu (2023) 采用动态规划以递归方式最小化编辑一个token序列以匹配另一个token序列的总成本（精确匹配分数衡量）。
为了进一步提高token对齐的成功率，Wan (2024a) 用最小编辑距离策略取代精确匹配约束。
Mavromatis (2024) 遵循上述 token 对齐，提出在集成过程中使用困惑度来计算不同 LLM 输出的系数。
Xu (2024b)、Huang (2024c) 和 Yu （2024) 将重叠 token 视为锚点，将异构 LLM 产生的输出分布投影到同一空间。具体而言，Xu (2024b) 提出使用锚点作为桥梁直接学习不同词汇之间的投影矩阵，而 Huang (2024c) 和 Yu (2024) 计算从锚点到不同词汇的相对表示，从而间接实现词汇投影。

推理后的集成

最终LLM 的集成方法在推理之后组合生成的输出。

实现 LLM 集成的一种方法是构建 LLM 级联，以降低与仅使用大型 LLM 相关的推理成本。Chen (2023d) 使用按参数量排序的 LLM 序列来生成输出，一旦先前的较小 LLM 产生足够质量的输出，就停止该过程并返回结果。Yue (2024) 建议首先验证较小 LLM 生成的答案的正确性，如果初始答案不正确，则利用 LLM 解决问题。

另一条研究路线侧重于从各种 LLM 生成的几个候选中选择最佳候选。Lee (2023) 从 LLM 生成的几个候选中选择最佳指令以进行指令调整数据构建。Jiang (2024) (2023a) 探索了各种无监督选择指标，包括 BERTScore (Zhang, 2020)、BLEURT (Sellam, 2020)、BARTScore (Yuan, 2021) 和 ChatGPT 分数。然而，他们发现选择的有效性受到候选池质量的制约。为了解决这个问题，Jiang (2023a) 采用了额外的融合模型，使用排名靠前的候选作为输入来生成最终输出。

合作

在 LLM 时代，协作策略已不再仅限于合并或集成。越来越多的研究将重点放在通过 LLM 之间的合作来解决各种问题或特定任务的更广泛方法上。基于目标函数，可以有几种合作策略：高效计算、知识迁移、补偿合作和联邦合作。

高效计算

随着 LLM 规模的扩大，其推理所需的计算资源也显著增加。因此，加速模型推理已成为当务之急。较小的 LLM 由于其轻量级特性，在加速较大的 LLM 中起着至关重要的作用 (Miao et al., 2023)。通过协作实现模型加速的研究可以分为两大类：输入压缩和推测解码。输入压缩通过使用较小的 LLM 压缩输入来实现高效计算，从而减少上下文长度。推测解码涉及利用较小的 LLM 推测性地起草多个tokens，而较大的 LLM 则并行验证这些起草tokens。

知识迁移

LLM 通常包含各种功能。然而，由于获取训练数据的困难和训练成本高，将知识或能力从一个 LLM 直接迁移到另一个 LLM 引起了广泛关注。考虑到 LLM 的输出概率通常包含模型的嵌入知识，最近的方法主要集中于 LLM 之间的知识迁移。例如，Wan (2024a,b) 通过知识提炼的持续训练将知识从多个 LLM 转移到目标模型 (Hinton，2015)。尽管如此，最近提出的大多数方法都侧重于推理阶段的合作，而不涉及训练，并且可以根据其目标分为：减轻错误的知识、强化正确的知识和提供新的知识三种。

补偿合作

在实际应用中，大模型由于缺乏可解释性，仍面临一些不可控的问题（Zhao et al.，2024a）。因此，有必要引入额外的控制器来弥补LLM的不足。根据所需的特性，控制器可以充当：1）检测器，2）检索器。

由于缺乏相关知识，LLM 可能会产生错误响应或幻觉。因此，检测 LLM 中的幻觉对于确保生成内容的可靠性和可信度至关重要。其中包括两种类型的幻觉：事实幻觉和忠实幻觉。

LLM 所拥有的信息是有限的。为了扩展大型模型的知识，检索增强生成 (RAG) (Gao，2024) 旨在利用外部数据源来辅助文本生成。合作模型充当通向外部知识的桥梁，协助检索信息。检索不同类型数据的合作模型，差异很大，包括：1）非结构化数据；2）结构化数据。

联邦合作

大语言模型受到越来越多的关注，但它们在实际应用中面临许多挑战。这些挑战主要源于公共领域数据的稀缺性和维护私人数据隐私的需要。为了解决这些问题，联邦学习（FL）（Li et al.，2020）已成为一种非常有前途的技术，因为它可以在允许共享公共模型的同时保护私人数据。联邦学习主要可分为两个部分：联邦训练和联邦提示工程（Chen et al.，2023a）。现有的合作研究分布在上述两个方面。

挑战和方向

合并的灵活性
集成的速度-性能权衡
合作的更多应用

硅谷秋水

关注

15
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
合并、集成和合作：大语言模型时代的协作策略综述

24年7月来自中科院自动化所、中科大、南京科大和武汉AI研究院的论文“Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models”。
复制链接

扫一扫