斯坦福：长上下文LLM简化agent流程-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147986974

在这里插入图片描述

📖标题：Putting It All into Context: Simplifying Agents with LCLM
🌐来源：arXiv, 2505.08120

🌟摘要

🔸语言模型（LM）代理的最新进展已经证明了自动化复杂现实世界任务的巨大潜力。为了在这些困难的任务上取得进展，LM代理架构变得越来越复杂，通常包含多步检索工具、多个代理和适应底层LM的脚手架。
🔸在这项工作中，我们研究了所有这些复杂性是否是必要的，或者这些支架的部分是否可以在SWE工作台等具有挑战性的任务中拆除。我们证明，在SWE工作台的情况下，只需将整个环境放入长上下文语言模型（LCLM）的上下文中，并正确提示该模型，即可使其与精心调整的复杂代理支架竞争。
🔸我们发现，没有任何支架或工具的Gemini-1.5-Pro模型在SWE Bench Verified上达到了38%，与使用精心调整的试剂支架的方法（32%）相当。虽然Gemini-1.5-Pro的非封装方法没有达到最强的代理架构，但我们证明，使用相同非封装方法的更强大的Gemini-2.5-Pro直接达到了50.8%的解决率。此外，将Gemini-1.5-Pro与Claude-3.7相结合的两阶段方法实现了48.6%的解决率。

🛎️文章简介

🔸研究问题：何利用长上下文语言模型（LCLM）来简化复杂的智能体设计，从而提高软件工程任务的效率？
🔸主要贡献：论文提出了一种无需复杂架构的状态上下文智能体设计方法，利用LCLM直接处理完整环境状态以提高问题解决能力。

📝重点思路

🔸设计状态上下文智能体，利用LCLM处理大量上下文信息，避免复杂的互动探索。
🔸提出DIRECTSOLVE方法，直接使用LCLM根据问题陈述和完整的（压缩）代码库状态生成解决方案。
🔸使用提示技巧，例如代码重述和链式思维提示，以提高模型的性能和稳定性。
🔸采用SELECTSOLVE方法，结合LCLM和短上下文语言模型（SCLM），优化性能。
🔸实现状态压缩，确保有效利用LCLM的上下文处理能力，减少不必要的文件和信息。

🔎分析总结

🔸LCLM能够显著提高代码定位的准确性，相较于传统架构，减少了文件级别定位错误。
🔸在SWE-Bench-Verified任务中，DIRECTSOLVE方法的简单性使其在性能上超过了复杂的支架方法。
🔸SELECTSOLVE方法通过结合LCLM和SCLM的优点，显著提高了解决方案的生成效果，特别是在处理较大代码库时。
🔸研究表明，随着LCLM能力的提升，简化的智能体设计将变得更加有效和实用。
🔸研究还表明，当前的LCLM在处理长上下文时表现不佳，增加上下文长度会导致解决准确率下降。