LLM-BLENDER:使用成对排名和生成式融合来集成大语言模型

206 篇文章 0 订阅
196 篇文章 1 订阅

23年6月来自A2I、USC和浙江大学的论文“LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion”。

LLM-BLENDER是一个集成框架,旨在利用多个开源大语言模型 (LLM) 的不同优势来实现始终如一的卓越性能。框架由两个模块组成:PAIRRANKER 和 GENFUSER,其说明了不同示例的最佳 LLM 可能存在显著差异。PAIRRANKER 采用专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选,使用交叉注意编码器来确定更优的那个。结果表明,PAIRRANKER 与基于 ChatGPT 的排名表现出最高的相关性。然后,GENFUSER 旨在合并排名靠前的候选,利用优势并减轻弱点,产生改进的输出。为了促进大规模评估,引入了一个基准数据集 MixInstruct,一个多指令数据集的混合,其具有 oracle 成对比较。

由于数据、架构和超参的不同,开源 LLM 表现出不同的优势和劣势,使它们相互补充。如图说明收集的 5,000 条指令上最佳 LLM 的分布情况。虽然 Vicuna 的百分比最高,但它仅在 21.22% 的例子中排名第一。此外,这个饼图表明,不同示例的最佳 LLM 可能会有很大差异,并且没有一个开源 LLM 可以主导竞争。因此,动态地集成这些 LLM 以为每个输入生成始终更好的响应非常重要。考虑到 LLM 的不同优势和劣势,开发一种能够利用它们互补潜力的集成方法至关重要,从而提高鲁棒性、泛化能力和准确性。通过结合各自独特的贡献,可以减轻个别 LLM 中的偏见、错误和不确定性,从而产生更符合人类偏好的输出。

请添加图片描述

集成 LLM 有两种主要方法:基于选择的方法和基于生成的方法。基于选择的方法比较候选者,选择排名靠前的候选者作为最终输出。由于选择的固有性质和有限的解决方案空间,基于选择的方法的性能受到正在考虑的 N 个候选者的限制。相反,基于生成的方法专注于融合 K 个候选者(1 < K ≤ N)产生一个未见的响应作为最终输出。

引入一个数据集 MixInstruct,用于对 LLM 在指令跟随任务中的集成模型进行基准测试。主要从四个来源收集一组大规模的指令示例,如表所示。

请添加图片描述

在整理和处理这些开源数据后,抽取 10 万个示例用于训练,5000 个用于验证,5000 个用于测试。然后,在这 11 万个示例上运行 N = 11 个流行的开源 LLM,包括 Vicuna、OpenAssistant、Alpaca、MPT 等(参见下表)。

请添加图片描述

为了获得候选者的oracle排名,为 ChatGPT 设计比较提示,评估所有候选对。具体来说,对于每个示例,准备 55 对候选(11 × 10/2)。对于每一对,要求 ChatGPT 判断更好的候选(或宣布平局)。对于训练集和验证集,根据 BERTScore、BLEURT 和 BARTScore 等传统指标提供结果。在这种情况下,使用函数 Q(yi, y) 根据候选 yi 与基本事实 y 的相似性来估计其质量。

如图所示提出一个排序和融合流水线框架 LLM-BLENDER,用于集成 LLM。该框架由两个主要组件组成:成对排序模块 PAIRRANKER和融合模块 GENFUSER。PAIRRANKER 模块学习比较每个输入的所有候选对,然后对候选列表进行排序。然后,选择排名前 K = 3 的候选,将它们与输入 x 连接起来,并构建 GENFUSER 模块的输入序列。GENFUSER 模块是一个 seq2seq 语言模型,最后生成最终的输出以服务于用户。

请添加图片描述

以前的重新排序方法主要侧重于为每个候选 yi 独立计算得分 si = fφ(x, yi),其中 si 仅由 yi 决定。值得注意的是,GPT-3.5 指令调整中的奖励模型(Ouyang,2022)也属于这一类。如图说明这些基线方法:x 是输入,yi 是某个候选,其得分为 si;1)MLM-Scoring 是一种无监督方法,它使用外部掩码 LM 对候选进行评分;2)SimCLS 使用相同的编码器对 x 和每个候选 yi 进行编码;3)SummaReranker 则采用交叉编码器同时对 x 和 yi 进行编码;4)PAIRRANKER 同时对一对候选 (yi, yj) 进行编码,以成对方式对它们进行评分。

请添加图片描述

提出两种计分方法,MaxLogits 和 MaxWins,利用矩阵中的所有元素。本质上,MaxLogits 计算 yi 优于所有其他候选的置信度,而 MaxWins 计算与其他候选相比获胜的次数。之后,提出了一种更有效的聚合方法,执行单次冒泡排序,运行并进行成对比较,选择最佳候选。

PAIRRANKER 的有效性受到候选池中选择质量的限制。假设通过合并多个排名靠前的候选,可以克服这一限制。由于这些排名靠前的候选通常展示出互补的优势和劣势,因此结合它们的优势并减轻它们的缺点,可生成更好的响应。目标是设计一个生成模型,该模型以输入 x 和 K 个排名靠前的候选 {y1,…,yK}(例如,K = 3)为输入,并生成改进的输出作为最终响应。 为了实现这一目标,提出GENFUSER,这是一种 seq2seq 方法,用于融合一组以输入指令为条件的候选以生成增强的输出。具体来说,使用分隔符tokens(例如 <extra_id_i>)按顺序连接输入和 K 个候选,并微调类似 T5 的模型来学习生成 y。在实践中,用具有 3b 个参数的 Flan-T5-XL(Chung,2022),因为它具有出色的性能和相对较小的规模。

  • 10
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值