LLM-BLENDER：使用成对排名和生成式融合来集成大语言模型_点式相关性评分和成对排名提示-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/141023629

23年6月来自A2I、USC和浙江大学的论文“LLM-BLENDER: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion”。

LLM-BLENDER是一个集成框架，旨在利用多个开源大语言模型 (LLM) 的不同优势来实现始终如一的卓越性能。框架由两个模块组成：PAIRRANKER 和 GENFUSER，其说明了不同示例的最佳 LLM 可能存在显著差异。PAIRRANKER 采用专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选，使用交叉注意编码器来确定更优的那个。结果表明，PAIRRANKER 与基于 ChatGPT 的排名表现出最高的相关性。然后，GENFUSER 旨在合并排名靠前的候选，利用优势并减轻弱点，产生改进的输出。为了促进大规模评估，引入了一个基准数据集 MixInstruct，一个多指令数据集的混合，其具有 oracle 成对比较。

由于数据、架构和超参的不同，开源 LLM 表现出不同的优势和劣势，使它们相互补充。如图说明收集的 5,000 条指令上最佳 LLM 的分布情况。虽然 Vicuna 的百分比最高，但它仅在 21.22% 的例子中排名第一。此外，这个饼图表明，不同示例的最佳 LLM 可能会有很大差异，并且没有一个开源 LLM 可以主导竞争。因此，动态地集成这些 LLM 以为每个输入生成始终更好的响应非常重要。考虑到 LLM 的不同优势和劣势，开发一种能够利用它们互补潜力的集成方法至关重要，从而提高鲁棒性、泛化能力和准确性。通过结合各自独特的贡献，可以减轻个别 LLM 中的偏见、错误和不确定性，从而产生更符合人类偏好的输出。

请添加图片描述

集成 LLM 有两种主要方法：基于选择的方法和基于生成的方法。基于选择的方法比较候选者，选择排名靠前的候选者作为最终输出。由于选择的固有性质和有限的解决方案空间，基于选择的方法的性能受到正在考虑的 N 个候选者的限制。相反，基于生成的方法专注于融合 K 个候选者（1 < K ≤ N）产生一个未见的响应作为最终输出。

引入一个数据集 MixInstruct，用于对 LLM 在指令跟随任务中的集成模型进行基准测试。主要从四个来源收集一组大规模的指令示例，如表所示。

请添加图片描述

在整理和处理这些开源数据后，抽取 10 万个示例用于训练，5000 个用于验证，5000 个用于测试。然后，在这 11 万个示例上运行 N = 11 个流行的开源 LLM，包括 Vicuna、OpenAssistant、Alpaca、MPT 等（参见下表）。

请添加图片描述

为了获得候选者的oracle排名，为 ChatGPT 设计比较提示，评估所有候选对。具体来说，对于每个示例，准备 55 对候选（11 × 10/2）。对于每一对，要求 ChatGPT 判断更好的候选（或宣布平局）。对于训练集和验证集，根据 BERTScore、BLEURT 和 BARTScore 等传统指标提供结果。在这种情况下，使用函数 Q(yi, y) 根据候选 yi 与基本事实 y 的相似性来估计其质量。

如图所示提出一个排序和融合流水线框架 LLM-BLENDER，用于集成 LLM。该框架由两个主要组件组成：成对排序模块 PAIRRANKER和融合模块 GENFUSER。PAIRRANKER 模块学习比较每个输入的所有候选对，然后对候选列表进行排序。然后，选择排名前 K = 3 的候选，将它们与输入 x 连接起来，并构建 GENFUSER 模块的输入序列。GENFUSER 模块是一个 seq2seq 语言模型，最后生成最终的输出以服务于用户。

请添加图片描述

以前的重新排序方法主要侧重于为每个候选 yi 独立计算得分 si = fφ(x, yi)，其中 si 仅由 yi 决定。值得注意的是，GPT-3.5 指令调整中的奖励模型（Ouyang，2022）也属于这一类。如图说明这些基线方法：x 是输入，yi 是某个候选，其得分为 si；1）MLM-Scoring 是一种无监督方法，它使用外部掩码 LM 对候选进行评分；2）SimCLS 使用相同的编码器对 x 和每个候选 yi 进行编码；3）SummaReranker 则采用交叉编码器同时对 x 和 yi 进行编码；4）PAIRRANKER 同时对一对候选 (yi, yj) 进行编码，以成对方式对它们进行评分。

请添加图片描述

提出两种计分方法，MaxLogits 和 MaxWins，利用矩阵中的所有元素。本质上，MaxLogits 计算 yi 优于所有其他候选的置信度，而 MaxWins 计算与其他候选相比获胜的次数。之后，提出了一种更有效的聚合方法，执行单次冒泡排序，运行并进行成对比较，选择最佳候选。

PAIRRANKER 的有效性受到候选池中选择质量的限制。假设通过合并多个排名靠前的候选，可以克服这一限制。由于这些排名靠前的候选通常展示出互补的优势和劣势，因此结合它们的优势并减轻它们的缺点，可生成更好的响应。目标是设计一个生成模型，该模型以输入 x 和 K 个排名靠前的候选 {y1,…,yK}（例如，K = 3）为输入，并生成改进的输出作为最终响应。为了实现这一目标，提出GENFUSER，这是一种 seq2seq 方法，用于融合一组以输入指令为条件的候选以生成增强的输出。具体来说，使用分隔符tokens（例如 <extra_id_i>）按顺序连接输入和 K 个候选，并微调类似 T5 的模型来学习生成 y。在实践中，用具有 3b 个参数的 Flan-T5-XL（Chung，2022），因为它具有出色的性能和相对较小的规模。