25年1月来自Penn State U和谷歌云的论文“Chain of Agents: Large Language Models Collaborating on Long-Context Tasks”。
解决有效处理长上下文的挑战已成为大语言模型 (LLM) 的关键问题。出现了两种常见策略:1)减少输入长度,例如通过检索增强生成 (RAG) 检索相关块,以及 2)扩展 LLM 的上下文窗口限制。但是,这两种策略都有缺点:输入减少不能保证覆盖所需信息的部分,而窗口扩展则难以专注于解决任务的相关信息。为了缓解这些限制,提出 Chain-of-Agents (CoA),这是一种新框架,它通过自然语言利用多智体协作,实现跨长上下文任务的各种 LLM 的信息聚合和上下文推理。CoA 由多个工作者智体组成,它们依次通信以处理文本的不同分段部分,然后是一个管理者智体,它将这些贡献合成为连贯的最终输出。 CoA 通过交替阅读和推理来处理整个输入,并通过为每个智体分配一个短上下文来缓解长上下文焦点问题。对 CoA 在问答、总结和代码完成等各种长上下文任务上进行了全面评估,结果表明,与 RAG、全上下文和多智体 LLM 的强大基线相比,CoA 的性能显著提升了 10%。
尽管 LLM 在各种场景中都表现出色,但它们在涉及长上下文的任务上却举步维艰 [8, 63, 57]。许多应用场景都需要极长的上下文,例如问答 [85, 22, 69]、文档和对话摘要 [25, 93, 91, 90, 12] 和代码补全 [20, 43],其中输入包含整本书 [32, 33] 和长篇文章 [16]。
为了应对长上下文任务的挑战,人们探索两个主要方向,如表所示:减少输入和窗口扩展。减少输入会在输入到下游 LLM 之前缩短输入上下文的长度。截断方法 [1, 67] 直接截断输入。检索增强生成 (RAG) [81] 通过嵌入相似性检索最相关的块,扩展了这一方向。然而,由于检索准确度低,LLM 可能会收到不完整的上下文来解决任务,从而影响性能。窗口扩展通过微调扩展 LLM 的上下文窗口以使用整个输入 [13, 44, 48]。例如,Claude-3 [5] 直接允许为每个输入读取 200k 个tokens。然而,当窗口变长时,LLM 很难专注于解决任务