CHAIN-OF-EXPERTS: WHEN LLMS MEET COMPLEX OPERATIONS RESEARCH PROBLEMS-CSDN博客

本文链接：https://blog.csdn.net/weixin_43961909/article/details/145180992

题目

专家链:当LLMS遇到复杂的运筹学问题时
在这里插入图片描述

论文地址：https://openreview.net/forum?id=HobyL1B9CZ
项目地址：https://github.com/xzymustbexzy/Chain-of-Experts

摘要

大型语言模型(LLM)已经成为各种NLP任务的强大技术，例如数学推理和计划生成。在本文中，我们研究复杂运筹学问题的自动建模和编程，以减轻对领域专家的严重依赖，并使一系列工业部门受益。我们提出了第一个基于LLM的解决方案，即专家链(CoE)，这是一个新颖的多智能体协作框架，用于增强推理能力。具体来说，每个代理都被分配一个特定的角色，并被赋予与OR相关的领域知识。我们还引入了一个指挥者，通过向前的思想构建和向后的反射机制来协调这些代理。此外，我们建立了一个复杂或问题的基准数据集(ComplexOR ),以促进或研究和社区发展。实验结果表明，CoE在LPWP和ComplexOR上都明显优于基于LLM的方法。

简介

运筹学(OR)的目标是用数学方法建立复杂决策问题的模型，这些问题产生于广泛的工业领域。为了使过程自动化并减少对特定领域建模专家的依赖，NL4Opt(优化的自然语言)(Ramamonjison等人，2022a)最近成为一项有吸引力但具有挑战性的NLP任务。它的目标是将OR问题的文本描述翻译成数学公式，供优化求解者使用。

为了便于理解这个任务，图1给出了当前NL4Opt基准数据集的一个例子。流行的NL4Opt模型采用两阶段框架。最初，他们执行NER以从输入文本中识别变量、参数和约束，这些随后被转换成数学优化模型。尽管这些方法在基本问题上有效，但在处理复杂的现实世界挑战时却失败了。

本文研究了现实工业需求中复杂问题的自动建模和编程。如图1所示，它们的文本描述通常包含隐式约束，这对现有的NL4Opt求解器提出了实质性的解释挑战。例如，用绿色突出显示的短语“零提前期”表示生产订单之间没有任何时间延迟。此外，必须具备特定领域的知识，以理解诸如“积压”、“结转”和“批量”等术语。最后，与简单示例中的显式输入数字相反，复杂或问题展示了大量的隐式变量，需要领域建模专家的规范。在这些复杂的问题中，大量的变量和约束带来了巨大的障碍，并导致了更长的推理链。

在这里插入图片描述
图1:初等和复杂NL4Opt问题的比较。在复杂或示例中，绿色短语表示隐含的约束，特定于领域的术语用黄色突出显示。模型输出见附录A.1。

为了解决上述问题，我们利用LLM的能力，提出了第一个基于LLM的解决方案。我们提出了一个多智能体推理框架，即专家链(CoE ),以协调多个LLM智能体来解决复杂问题。在协作努力的掌舵下，有一个中心实体，被指定为“指挥”，负责编排代理之间的交互序列。每个代理都被分配了一个特定的角色，并配备了特定领域的专业知识。我们实现了具有不同技能的多样化代理，包括但不限于术语解释器、数学模型的构建和编程。此外，我们引入了向后反射机制。通过对结果的系统分析，该框架有能力发现解决问题过程中的潜在错误。

与其他基于LLM的推理的比较。近年来，大量的研究致力于增强大型语言模型(LLM)的推理能力。值得注意的例子包括思维链(魏等，2022)、自我一致性(王等，2023a)、思维树(姚等，2023a)、思维图(Besta等，2023)、递进提示(郑等，2023)、反应(姚等，2023b)。这些作品为思维转换制定了明确的提示方案和途径。下一节将进一步阐述这些方法。不幸的是，这些单智能体LLM以及多智能体方案(如单人表演提示(Wang et al，2023b))在面对复杂OR问题时表现出明显的局限性，因为它们不能同时处理隐式约束、外部知识先决条件和长推理链的挑战。在我们的CoE中，我们通过多专家协作来解决这些挑战，实验结果表明CoE可以显著优于基于LLM的方法。

我们在更具挑战性的层次上研究NL4Opt，这要求模型具有隐式约束发现、领域特定知识和复杂推理能力。
这是第一个基于LLM的复杂或问题的解决方案。
提出了一种新的多智能体框架，称为专家链(CoE ),基于前向思维构建和后向反射机制实现协同问题求解和迭代建模优化。
我们还建立了一个新的数据集(ComplexOR ),在其上的实验结果证实了CoE比其他8个基于LLM的推理基线具有更好的性能。

建议的方法

专家设计

在我们的推理框架中，“专家”指的是基于大型语言模型(LLM)的专门代理，该语言模型用特定领域的知识和推理技能来增强。每个专家被分配一个特定的角色，并经历四个步骤:

第一步:在环境中学习。每个代理都可以访问外部知识库，并根据知识库执行top-k检索。然后将检索到的信息提供给LLM，以便于上下文学习。例如，负责生成Gurobi程序的专家可以访问Gurobi官方API文档。这一步是可选的，取决于知识库的可用性。
第二步:推理。基于LLM的专家利用现有的提示技术，如思维链或自我一致性，根据他们的特定角色执行推理任务。我们的推理过程由前瞻思维和反思模式组成，其细节将在下一节介绍。
第三步:总结。由于在与LLM的单次交互中的令牌限制约束，专家可以选择总结他们的推理输出。由于该步骤可能导致大量信息丢失，因此对于某些专家(例如，建模专家)来说，