CHAIN-OF-EXPERTS: WHEN LLMS MEET COMPLEX OPERATIONS RESEARCH PROBLEMS

题目

专家链:当LLMS遇到复杂的运筹学问题时
在这里插入图片描述

论文地址:https://openreview.net/forum?id=HobyL1B9CZ
项目地址:https://github.com/xzymustbexzy/Chain-of-Experts

摘要

    大型语言模型(LLM)已经成为各种NLP任务的强大技术,例如数学推理和计划生成。在本文中,我们研究复杂运筹学问题的自动建模和编程,以减轻对领域专家的严重依赖,并使一系列工业部门受益。我们提出了第一个基于LLM的解决方案,即专家链(CoE),这是一个新颖的多智能体协作框架,用于增强推理能力。具体来说,每个代理都被分配一个特定的角色,并被赋予与OR相关的领域知识。我们还引入了一个指挥者,通过向前的思想构建和向后的反射机制来协调这些代理。此外,我们建立了一个复杂或问题的基准数据集(ComplexOR ),以促进或研究和社区发展。实验结果表明,CoE在LPWP和ComplexOR上都明显优于基于LLM的方法。

简介

    运筹学(OR)的目标是用数学方法建立复杂决策问题的模型,这些问题产生于广泛的工业领域。为了使过程自动化并减少对特定领域建模专家的依赖,NL4Opt(优化的自然语言)(Ramamonjison等人,2022a)最近成为一项有吸引力但具有挑战性的NLP任务。它的目标是将OR问题的文本描述翻译成数学公式,供优化求解者使用。

    为了便于理解这个任务,图1给出了当前NL4Opt基准数据集的一个例子。流行的NL4Opt模型采用两阶段框架。最初,他们执行NER以从输入文本中识别变量、参数和约束,这些随后被转换成数学优化模型。尽管这些方法在基本问题上有效,但在处理复杂的现实世界挑战时却失败了。

    本文研究了现实工业需求中复杂问题的自动建模和编程。如图1所示,它们的文本描述通常包含隐式约束,这对现有的NL4Opt求解器提出了实质性的解释挑战。例如,用绿色突出显示的短语“零提前期”表示生产订单之间没有任何时间延迟。此外,必须具备特定领域的知识,以理解诸如“积压”、“结转”和“批量”等术语。最后,与简单示例中的显式输入数字相反,复杂或问题展示了大量的隐式变量,需要领域建模专家的规范。在这些复杂的问题中,大量的变量和约束带来了巨大的障碍,并导致了更长的推理链。

在这里插入图片描述
图1:初等和复杂NL4Opt问题的比较。在复杂或示例中,绿色短语表示隐含的约束,特定于领域的术语用黄色突出显示。模型输出见附录A.1。

    为了解决上述问题,我们利用LLM的能力,提出了第一个基于LLM的解决方案。我们提出了一个多智能体推理框架,即专家链(CoE ),以协调多个LLM智能体来解决复杂问题。在协作努力的掌舵下,有一个中心实体,被指定为“指挥”,负责编排代理之间的交互序列。每个代理都被分配了一个特定的角色,并配备了特定领域的专业知识。我们实现了具有不同技能的多样化代理,包括但不限于术语解释器、数学模型的构建和编程。此外,我们引入了向后反射机制。通过对结果的系统分析,该框架有能力发现解决问题过程中的潜在错误。

    与其他基于LLM的推理的比较。近年来,大量的研究致力于增强大型语言模型(LLM)的推理能力。值得注意的例子包括思维链(魏等,2022)、自我一致性(王等,2023a)、思维树(姚等,2023a)、思维图(Besta等,2023)、递进提示(郑等,2023)、反应(姚等,2023b)。这些作品为思维转换制定了明确的提示方案和途径。下一节将进一步阐述这些方法。不幸的是,这些单智能体LLM以及多智能体方案(如单人表演提示(Wang et al,2023b))在面对复杂OR问题时表现出明显的局限性,因为它们不能同时处理隐式约束、外部知识先决条件和长推理链的挑战。在我们的CoE中,我们通过多专家协作来解决这些挑战,实验结果表明CoE可以显著优于基于LLM的方法。

  1. 我们在更具挑战性的层次上研究NL4Opt,这要求模型具有隐式约束发现、领域特定知识和复杂推理能力。
  2. 这是第一个基于LLM的复杂或问题的解决方案。
  3. 提出了一种新的多智能体框架,称为专家链(CoE ),基于前向思维构建和后向反射机制实现协同问题求解和迭代建模优化。
  4. 我们还建立了一个新的数据集(ComplexOR ),在其上的实验结果证实了CoE比其他8个基于LLM的推理基线具有更好的性能。

相关工作

    NL4Opt问题。NL4Opt旨在将问题的描述转化为数学公式。Ramamonjison等人(2022a)策划了基准数据集1。弥合差距在自然语言输入p和上下文无关公式r之间,他们提出了一个两阶段映射p → r → f,首先采用具有复制机制的BART-base模型(Lewis等人,2020)来生成中间表示r,然后将其解析为规范公式。

    基于编辑的模型(Malmi等人,2022年)可作为误差校正的后处理步骤。随后的研究遵循了两阶段框架。何等人(2022)介绍了一种集成文本生成器,利用多任务学习技术来提高生成公式的质量。类似地,Ning等人(2023)提出了一个提示引导的生成框架,辅以基于规则的预处理和后处理技术,以提高准确性。在一项相关的研究中,Prasath & Karande (2023)调查了数学程序的合成。GPT-3和反向翻译被用来合成标准形式以及Python代码。

    基于LLMs的推理。语言模型在解决特定领域的复杂推理任务方面显示出巨大的潜力,如TSP(张等,2023)、数据库(周宣和,2023)和知识系统(朱等,2023)。思维链(CoT)(魏等,2022)将复杂的推理任务分解为一系列中间推理步骤。自我一致性(Wang等,2023a)通过对一组不同的推理路径进行采样并选择最一致的答案,取代了CoT中的贪婪解码。思维树(ToT)(姚等,2023a)和思维图(GoT) (Besta等,2023)通过允许逻辑思维模型以结构化的方式探索和组合思维,进一步增强了推理能力。渐进式提示(PHP)(郑等,2023)通过利用先前生成的答案作为提示来逐步完善答案。随后的工作,如ReAct (Yao等人,2023年b)和Reflexion (Shinn等人,2023年),使LLM能够与外部来源的附加信息或反馈进行交互。最近,还探索了多个代理之间的合作。CAMEL(李等,2023)提出了一个新颖的用于自主协作的通信代理框架。单人表演提示(SPP) (Wang et al,2023b)通过模拟多个角色将单个LLM转化为认知协同器,并展示了多智能体系统潜在的问题解决能力。

建议的方法

专家设计

    在我们的推理框架中,“专家”指的是基于大型语言模型(LLM)的专门代理,该语言模型用特定领域的知识和推理技能来增强。每个专家被分配一个特定的角色,并经历四个步骤:

  1. 第一步:在环境中学习。每个代理都可以访问外部知识库,并根据知识库执行top-k检索。然后将检索到的信息提供给LLM,以便于上下文学习。例如,负责生成Gurobi程序的专家可以访问Gurobi官方API文档。这一步是可选的,取决于知识库的可用性。
  2. 第二步:推理。基于LLM的专家利用现有的提示技术,如思维链或自我一致性,根据他们的特定角色执行推理任务。我们的推理过程由前瞻思维和反思模式组成,其细节将在下一节介绍。
  3. 第三步:总结。由于在与LLM的单次交互中的令牌限制约束,专家可以选择总结他们的推理输出。由于该步骤可能导致大量信息丢失,因此对于某些专家(例如,建模专家)来说,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三月七꧁ ꧂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值