大语言模型的知识融合_多大语言模型融合-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/138967741

24年1月中山大学和腾讯AI实验室的论文“Knowledge Fusion of Large Language Models”。

虽然从头开始训练大语言模型 (LLM) 可以生成具有独特功能和优势的模型，但成本很高，并且可能会导致功能冗余。或者，一种经济有效且令人信服的方法是将现有的预训练LLMs合并到更有效的模型中。然而，由于这些LLMs的架构不同，直接混合权重是不切实际的。本文介绍LLMs知识融合的概念，旨在结合现有LLMs的能力并将其转移到单个LLM中。通过利用源LLM的生成分布，将它们的集体知识和独特优势具体化，从而有可能将目标（target）模型的能力提升，超越任何单个源LLM的能力。用具有不同架构的三种流行LLMs（Llama-2、MPT 和 OpenLLaMA）在各种基准和任务中验证了该方法。 LLMs的融合可以提高目标模型在推理、常识和代码生成等一系列能力上的性能。代码、模型权重和数据如下公开 https://github.com/fanqiwan/FuseLLM

如图是传统模型融合技术（集成方法和权重合并方法）和LLM知识融合方法（FUSELLM）比较。不同的动物图标代表不同的LLM，不同的物种表示LLM拥有不同的架构。 FUSELLM 将多个LLM的知识外化，并将其能力转移到目标LLM。

添加图片注释，不超过 140 字（可选）

令 t 表示从语料库 C 采样的长度为 N 的文本序列，t<i =(t1, t2, …, ti−1) 表示第 i 个token之前的序列。用于训练由 θ 参数化的语言模型的因果语言建模 (CLM) 目标被定义为最小化负对数似然：
添加图片注释，不超过 140 字（可选）
上述目标将序列似然分解为token级别的交叉熵损失，将每个token的预测分布与其one-hot表示进行比较。为了提供更普遍的角度观察，将这种token级视图重新构建为顺序分布的格式。具体来说，对于文本序列 t，聚合 token 级别的预测并创建一个概率分布矩阵 Pθt，其中第 i 行表示模型预测的第 i 个 token 在大小V词汇上的分布。然后，CLM 目标可以解释为减少 Pθt 与one-hot标签矩阵 Ot之间的差异，其中每一行都是相应黄金token的one-hot表示。形式上，CLM 目标转换为以下表示形式：
在这里插入图片描述
从语言模型的角度来看，概率分布矩阵可以反映其在理解文本时的某些固有知识。因此，来自不同LLM的同一文本的不同概率分布矩阵，可用于表示这些模型中嵌入的不同知识。认识到这一点，提出的 FUSELLM 方法通过概率建模来解决 LLM 融合问题，旨在通过合并源 LLM 的概率分布来创建统一的 LLM。为了实现这一目标，当从一组要融合的 LLM 开始时，FUSELLM 在反映预训练数据集的原始文本语料库上对目标 LLM 进行轻量级持续训练。 FUSELLM 不是仅仅依赖于因果语言建模（ CLM ）目标，而是非常重视最小化一个目标 LLM 的概率分布与其源 LLM 的概率分布之间的差异。

对于语料库 C 中的每个文本，应用提供的 K 个源 LLM 并获得一组概率分布矩阵，表示为 {Pθj }，j=1，K，其中 θj 表示 LLM 的参数。利用这些矩阵，将各个模型的知识外化到统一的空间中，本质上是在文本上创建统一的概率表示。源 LLM 之间词汇差异可能导致矩阵 {Pθj} 无法对齐。为了解决这个问题，采用了token对齐策略促进跨模型的更连贯概率解释。

对齐概率矩阵后，继续将它们融合成一个紧凑的表示。为此目的可以应用各种融合策略。用Pt来表示融合表示矩阵如下：
添加图片注释，不超过 140 字（可选）
为了将源 LLM 的功能转移到目标 LLM，强制目标 LLM 的预测和融合表示矩阵 Pt 之间的对齐。用 Qt 来表示文本 t 的目标 LLM 输出分布矩阵，然后定义融合目标如下：

持续训练的总体目标由因果语言建模目标 LCLM 和融合目标 LFusion 的加权组合组成，如下所示：
添加图片注释，不超过 140 字（可选）
确保多个LLM之间的token对齐对于有效的知识融合至关重要，因为它保证了概率分布矩阵的正确映射。 Fu(2023) 采用动态编程来递归地最小化编辑一个token序列以匹配另一个token序列的总成本。如果两个token之间存在一对一映射，则相应的分布是完美映射的。否则，映射的分布会退化为one-hot向量。由于不同tokenizer为同一序列生成的token通常表现出有限的差异，因此为提高token对齐的成功率，替换Fu（2023）的精确匹配（EM）约束来为最小编辑距离（MinED）策略，该策略根据 MinED 映射来自不同tokenizer的tokens。这种token对齐的放松有助于在分布矩阵中保留大量信息，同时引入较小的错误。

为了结合源LLM的集体知识，同时保留其独特的优势，必须评估不同LLM的质量并为其各自的分布矩阵分配不同的重要性级别。为此，在处理文本 t 时，用分布矩阵和黄金标签之间的交叉熵损失作为 LLM 预测质量的指标（Marion，2023）。源LLM的交叉熵分数越低，意味着对文本的理解越准确，其预测应该具有更大的意义。基于这个标准，引入两个融合函数：（1）MinCE：该函数输出具有最小交叉熵得分的分布矩阵； (2) AvgCE：该函数根据交叉熵分数生成分布矩阵的加权平均值。

FUSELLM方法的完整流程如下算法所示。

添加图片注释，不超过 140 字（可选）