路由到专家：高效奖励引导的大语言模型集成

最新推荐文章于 2024-08-12 19:49:41 发布

硅谷秋水

最新推荐文章于 2024-08-12 19:49:41 发布

阅读量803

点赞数 9

分类专栏：大模型人工智能机器学习文章标签：人工智能语言模型机器学习深度学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/141048348

版权

大模型同时被 3 个专栏收录

431 篇文章 6 订阅

订阅专栏

机器学习

245 篇文章 2 订阅

订阅专栏

人工智能

225 篇文章 0 订阅

订阅专栏

23年11月来自阿里的论文“Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models”。

假设现成的 LLM 在广泛的专业域和任务中具有异构的专业知识，大语言模型 (LLM) 这种互补潜能，LLM 集成可以始终如一地实现更好的性能。现有的 LLM 集成方法主要关注输出的奖励模型排名，导致计算开销很大。为了解决这个问题，使用现成的奖励模型挖掘潜在专业知识。ZOOTER 是一种奖励引导的路由方法，它蒸馏训练查询的奖励来训练一个路由函数，它可以将每个查询精确地分配给具有专业知识的 LLM。还集成一个基于标签（tag）的标签（label）增强功能，在奖励作为银监督时减轻不确定性带来的噪音。与奖励模型排名方法相比，ZOOTER 在推理方面表现出计算效率，因为它只引入路由函数较小的计算开销。

如图所示是大语言模型集合的示例。蓝色的奖励模型排名需要从所有模型生成响应，而 ZOOTER 将给定查询路由到最佳模型并仅推断一个模型。此案例是从 MT-Bench 基准测试中收集的，还提供了每个响应的 oracle 判断。

请添加图片描述

奖励模型排名 (RMR) 利用互补潜力来集成 LLM 并实现超越性能。RMR 试图找到一个奖励函数 Pˆ 来估计 oracle 偏好 P，以便可以为每个查询获得最佳模型 (Jiang，2023)。然而，RMR 推断所有候选模型以获得输出，然后用奖励函数对它们进行排名，从而引入大量的计算开销。
查询路由减轻 LLM 集成中的效率问题，尤其是与现有的 RMR 方法相比。通常，查询路由试图找到关于 qj ∈ Q 的路由函数 Z(q,mi)，使得 mi = argmaxm∈M Z (qj , m)。路由函数根据查询本身分发查询而不生成输出。如果 LLM 的互补潜力成立，则路由函数会预测查询 q 属于 LLM Qm 专业知识的概率。

ZOOTER 是一种奖励引导的查询路由方法，用于高效组装大语言模型。ZOOTER 从奖励模型排名中学习，解释每个模型的潜在专业知识。因此，如图所示，ZOOTER 首先在包含不同查询的训练集上推断所有候选 LLM，以生成响应。然后，所有响应都将由提供标量奖励的现成奖励模型奖励，如图中的蓝色虚线所示。首先通过基于标签的先验增强奖励以进行平滑和去噪。然后，在路由函数的知识蒸馏训练中使用归一化的奖励分布作为监督，如图中的绿色虚线所示。在推理过程中，路由函数将输入查询分类到该查询中具有最强专业知识潜力的 LLM，然后该 LLM 将生成专家响应。通过训练这样的路由函数，ZOOTER 实现了更高效的集成，因为它只需要推断一个专家 LLM再加上路由函数的少量计算开销。

请添加图片描述

ZOOTER 是一种数据高效且资源消耗少的方法，因为训练集 Q 仅包含查询，没有响应注释。但是，训练集中的查询应尽可能多样化，以最大限度地提高路由函数的泛化能力。蒸馏过程有助于 ZOOTER 学习每个模型的潜在专业知识。因此，可以在推理过程中仅用路由函数判断查询是否属于专业知识集来降低计算成本。

利用指令标签来进一步增强对训练查询的奖励。基于标签的标签增强类似于广泛使用的标签平滑技术，并且在知识蒸馏中被证明是有效的（Yuan et al.，2020）。具体而言，首先用本地标签器T（·）标签每个查询qˆ获得一组标签 T（qi）。然后，将具有相同标签查询的所有奖励汇总为标签奖励如下：

请添加图片描述

然后，线性组合使用标签奖励来增强每个查询的奖励：

请添加图片描述

实验中选择六个基于 LLAMA 的 LLM，其大小均为 13B，作为查询路由的候选 LLM：

(a) WizardLM (Xu et al., 2023) 与通过 EVOLINSTRUCT 增强的查询和响应对齐，
(b) WizardCoder (Luo et al., 2023b) 是使用与 WizardLM 相同技术的编码专家 LLM，
© WizardMath (Luo et al., 2023a) 是与查询增强、ChatGPT 奖励和 PPO 优化对齐的数学专家 LLM，
(d) Vicuna (Chiang et al., 2023) 与用户和专有聊天机器人之间的大量对话对齐，
(e) OpenChat (Wang et al., 2023a) 与一组选定的 ShareGPT 对齐，并采用额外的训练策略，
(f) Llama-2-Chat (Touvron et al., 2023b) 首先通过监督微调然后进行多轮拒绝采样（rejection sampling）进行对齐。

基线和 ZOOTER 都是基于这六个候选进行实验和评估。