📖标题:Putting It All into Context: Simplifying Agents with LCLM
🌐来源:arXiv, 2505.08120
🌟摘要
🔸语言模型(LM)代理的最新进展已经证明了自动化复杂现实世界任务的巨大潜力。为了在这些困难的任务上取得进展,LM代理架构变得越来越复杂,通常包含多步检索工具、多个代理和适应底层LM的脚手架。
🔸在这项工作中,我们研究了所有这些复杂性是否是必要的,或者这些支架的部分是否可以在SWE工作台等具有挑战性的任务中拆除。我们证明,在SWE工作台的情况下,只需将整个环境放入长上下文语言模型(LCLM)的上下文中,并正确提示该模型,即可使其与精心调整的复杂代理支架竞争。
🔸我们发现,没有任何支架或工具的Gemini-1.5-Pro模型在SWE Bench Verified上达到了38%,与使用精心调整的试剂支架的方法(32%)相当。虽然Gemini-1.5-Pro的非封装方法没有达到最强的代理架构,但我们证明,使用相同非封装方法的更强大的Gemini-2.5-Pro直接达到了50.8%的解决率。此外,将Gemini-1.5-Pro与Claude-3.7相结合的两阶段方法实现了48.6%的解决率。
🛎️文章简介
🔸研究问题:何利用长上下文语言模型(LCLM)来简化复杂的智能体设计,从而提高软件工程任务的效率?
🔸主要贡献:论文提出了一种无需复杂架构的状态上下文智能体设计方法,利用LCLM直接处理完整环境状态以提高问题解决能力。
📝重点思路
🔸设计状态上下文智能体,利用LCLM处理大量上下文信息,避免复杂的互动探索。
🔸提出DIRECTSOLVE方法,直接使用LCLM根据问题陈述和完整的(压缩)代码库状态生成解决方案。
🔸使用提示技巧,例如代码重述和链式思维提示,以提高模型的性能和稳定性。
🔸采用SELECTSOLVE方法,结合LCLM和短上下文语言模型(SCLM),优化性能。
🔸实现状态压缩,确保有效利用LCLM的上下文处理能力,减少不必要的文件和信息。
🔎分析总结
🔸LCLM能够显著提高代码定位的准确性,相较于传统架构,减少了文件级别定位错误。
🔸在SWE-Bench-Verified任务中,DIRECTSOLVE方法的简单性使其在性能上超过了复杂的支架方法。
🔸SELECTSOLVE方法通过结合LCLM和SCLM的优点,显著提高了解决方案的生成效果,特别是在处理较大代码库时。
🔸研究表明,随着LCLM能力的提升,简化的智能体设计将变得更加有效和实用。
🔸研究还表明,当前的LCLM在处理长上下文时表现不佳,增加上下文长度会导致解决准确率下降。
💡个人观点
论文的核心在于利用LCLM的强大上下文处理能力,扩大了上下文窗口,避免了传统智能体频繁交互。
🧩附录