OrchestraLLM：用于对话状态跟踪的语言模型高效编排

本文链接：https://blog.csdn.net/yorkhunter/article/details/141073748

24年2月来自华盛顿大学和微软的论文“OrchestraLLM: Efficient Orchestration of Language Models for Dialogue State Tracking”。

大语言模型 (LLM) 彻底改变自然语言处理的格局，但计算成本高昂。为了在不牺牲性能的情况下降低成本，先前的研究探索各种方法来利用小语言模型 (SLM) 潜力，作为大模型的经济高效替代品。基于 SLM 和 LLM 在结构化知识提取任务中表现出互补优势的发现，本文提出一种 SLM/LLM 路由框架，旨在提高计算效率和增强任务性能。在对话状态跟踪（DST）任务中，与单纯依赖 LLM 相比，所提出的路由框架显著提高性能，同时将计算成本降低 50% 以上。

面向任务的对话 (TOD) 由双方之间的一系列信息交换组成，每个交换都由用户初始化，然后系统做出响应。在这里，将每次交换表示为一个回合，从而产生一个序列 U1、A1、…、UT、AT，其中 Ut 和 At 分别表示用户话语和系统响应。在第 t 回合，用户提供新话语 Ut，系统智体用话语 At 做出回应。在第 t 回合，相应的对话上下文为 Ct = {U1, A1, … , At-1, Ut}，其中不包括最新的系统响应 At。DST 的目标是，从用户系统话语中提取与任务相关的信息，作为结构化表示（对话状态），以便相应地满足用户请求。为了实现这一点，通常会提供特定于任务的方式。在本文考虑的多域场景中，模式包含 M 个域 D = {d1,…,dM} 和 N 个要跟踪的slots S = {s1,…,sN}。DSTt 是回合 t 的对话状态，它根据对话上下文 Ct 将当前从 (dm, sn) 对映射到一个值 v。具体来说，

请添加图片描述

仅包含迄今为止累积的非空 slots。不是直接从头开始预测整个对话状态，而是像 Hu (2022) 所做的那样，基于回合级信念 (TLB) 构建对话状态预测，这允许更灵活地组合 LLM 和 SLM。在回合 t，DST 模型仅预测 TLBt，其中使用新表达的slot或具有更新值的slot，聚合所有先前的 TLB 来获取最新的 DSTt。

针对特定任务的基于小语言模型 DST 模型通常通过全参更新进行微调，而使用基于大语言模型 DST 模型则是通过少样本上下文学习实现的。

提出的 SLM/LLM 路由整个框架如图所示。将不同的 DST 模型表示为专家。给定一个新的输入实例，三元组 (DSTt-1,At-1,Ut)，OrchestraLLM 首先计算其语义嵌入，使用余弦距离将其与来自每个专家池的三元组样例嵌入进行比较，并检索前 K 个样例。路由器根据多数投票将输入分配给专家。虽然该方法借鉴了 Jang (2023) 的工作，但值得注意的是，他们的方法主要侧重于优化零样本任务转移场景中的任务性能，而重点在于提高少样本学习设置中的计算效率。

请添加图片描述

对于小规模保留集中的每个对话，SLM 和 LLM 专家会分别预测每个用户回合 (TLBt) 的 TLB。如果两位专家都正确预测 TLB，则实例三元组将包含在 SLM 池中。当只有一位专家正确预测 TLB 时，实例将分配给该专家的池。未正确预测的实例不会在任何一个池中使用。

与密集检索（Karpukhin，2020）类似，检索器使用双编码器架构，将带有标签和预测的对话编码到嵌入空间中。SenBERT（Reimers & Gurevych，2019）用作主干嵌入模型。双编码器使用一小组对话进行微调，与用于构建专家池的对话相同。用对比损失，使正的示例对相似度高，而负的示例对相似度低。探索三种构建正和负的标签-预测对的不同方法：任务-觉察、专家-觉察及其组合。

任务-觉察监督，首先计算保留集中的每个样本对相似度来识别用于训练的正和负实例对。然后，使用得分最高和最低的 l 对，分别作为正例和负例。相似度函数利用保留集对话的黄金标注。给定两个实例 a 和 b，相似度是前一个状态 (DST) 和当前 TLB 的slot值相似度加权组合：

请添加图片描述

专家-觉察监督首先根据哪位专家给出最准确的预测对保留集中的实例进行分组（对于平分，选择 SLM）。然后，使用现成的嵌入器（例如 SenBERT）计算成对三元组相似度。具有相同专家标签的 l 个最高得分对是正例，具有不同专家标签的 l 个最低得分对是负例。
任务+专家-觉察监督只是将正例对和负例对两放在一个池子。请注意，任务-觉察监督与路由中使用的专家无关，因此在添加或更新专家时无需重新训练嵌入模型。如果专家发生变化，专家-觉察监督将需要更新嵌入模型。在所有情况下，专家池都需要随着专家的变化而更新。
下表是对DST数据集的一个摘要：

请添加图片描述

实验中考虑 DST 的少样本设置。遵循 Wu et al. (2020) 的多域实验设置，分别从 MultiWOZ 和 SGD 中随机抽取 5% 的训练数据来训练专家模型。

对于 Prompt-DST，分别使用 T5-base 和 T5-large 作为 MWOZ 和 SGD 的骨干模型，因为后者在模式和对话轮次方面更复杂。对于 IC-DST，使用 Chat-GPT 作为骨干模型，其中包含 10 个上下文范例。从 SenBERT（all-mpnet-base-v2）初始化路由检索器。对从 MWOZ 和 SGD 的验证集中随机抽取的 100 个对话作为保留集进行推理。使用相同的 100 个对话来训练检索器。对于所有实验，l = 25 用于对比学习的正例和反例。在推理过程中，从保留集中随机抽取 100 个轮次，分别作为 MWOZ 实验的 SLM 池和 LLM 池以及 SGD 实验的 300 个轮次。对多数投票使用 k = 10，并支持 SLM 打破平分预测。

如图给出 SLM 和 LLM 池的代表性示例：

请添加图片描述