AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

最新推荐文章于 2024-07-11 03:29:05 发布

玄宁

最新推荐文章于 2024-07-11 03:29:05 发布

阅读量884

点赞数 21

文章标签：人工智能算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44091497/article/details/136459721

版权

AnyTool：用于大规模 API 调用的自我反思、分层Agent

AnyTool阅读笔记【飞书文档版】

摘要：

AnyTool旨在彻底改变大量工具在解决用户查询方面的使用问题
结构简介
- 具有分层结构的 API 检索器
- 使用一组选定的 API 候选者解决用户查询的求解器
- 自我反思机制，如果初始解决方案被证明不可行，该机制会重新激活 AnyTool
先前的评估协议会出现人为导致高通过率，基于此修改了评估协议
引入新的基准测试AnyToolBench

介绍

API检索器
- 链接meta-agent，meta-agent链接不同类别的api-agent，如类别agent和tool-agent
求解器
- 求解API tool
自我反思
特点
- 即插即用，不用训练
- 应用分而治之思想和Rapid API分类构建的API层次结构
  - 显著减少了每个Agent的搜索范围，并克服了与 LLM 中最大上下文长度相关的限制
- 自我反思机制
  - 显著减少了“过度搜索”简单查询的趋势，同时还为复杂查询提供了上下文更丰富、更深入的搜索。这个闭环系统提高了查询解析过程的效率和有效性。
  - 4-6次自我反思，准确率提高20%，下图在不同数据集上使用不同轮次自我反思的性能曲线
- 对现实场景进行评估，修改评估协议

a）gpt-4（API检索器）给出的检索结果与查询意图无关会给出‘无解’这一答案，这样的“无解”会被认为是正确的，最终会导致Pass Rate变高
b）人工审核去除‘无解’，更新Pass Rate计算方式

方法

（第 4.1 节）创建 API 候选池。为了提高效率，AnyTool 采用分层架构设计，利用 Rapid API 中提供的结构化 API 组织
- Rapid API 中的结构化 API 组织
  - 第一层，类别：如体育、金融
  - 第二层，工具：特定类别的工具
  - 第三层，API：每个API属于特定的工具
- 层次结构
  - 如上方图2
- API候选池生成（看图2）
  - 所有Agent，包括元Agent、类别Agent和工具Agent，以多线程方式独立运行
  - 元Agent发送调用自身托管功能的请求（涉及创建类别agent和工具agent和执行特定功能），类别Agent或工具Agent解析请求并执行相应功能
  - 工具Agent调用函数“检查请求是否可解决”并收到返回值“True”时，工具Agent使用“将 API 添加到 API 池”功能将 API 添加到该池中，所有Agent停止操作
  - 完成搜索，标记为“已完成”
（第 4.2 节）求解器利用候选 API 来解析查询 Q
- 求解器发送调用函数的请求，
- 解释该请求并执行函数，
- 将函数的结果集成到上下文历史记录中，然后返回到求解器。
- 触发自我反思机制
  1. 1）“给出解决方案”，GPT-4 审查解决方案并确定查询仍未解决；
  2. 2）“放弃”，求解器无法解决查询。
如果查询仍未解决，AnyTool 会进行自我反思过程（第 4.3 节）以解决问题。

实验评估

使用 ToolBench 包含六个子集过滤了无解情况的：G1-Instruction (G1-I)、G1-Tool (G1-T)、G1-Category (G1C)、G2-Instruction (G2-I)、G2-Category (G2-C) 和 G3Instruction (G3-I)以及自己建立的 AnyToolBench
GPT-4-32K
发现 G1-I自子集GPT4 与人类评估的一致性为 96.5%，因而专门使用GPT-4评估

模型简要说明
- 除了原始的ToolLLM，还有两种ToolLLM变体
  - 1）一种在求解器中用 GPT-4 替换 ToolLLaMA；
  - 2) 另一种放弃 API 检索器并仅依赖参考 API。
- 4种不同的GPT-4模型
  - 1）一种在求解器中使用参考 API 和思想链算法；
  - 2) 另一个使用参考 API 和 DFSDT 算法；
  - 3) 第三种采用普通Agent进行 API 检索，并将 DFSDT 算法合并到求解器中；
  - 4) 第四个利用 AutoGen 的检索增强生成 (RAG) 功能进行 API 检索，并使用 DFSDT 算法通过选定的 API 候选来解析用户查询。
ToolBench结果
- AnyTool 在平均通过率方面明显优于原始 ToolLLM 和使用参考 API 的 GPT-4，分别高出 +32.6 点和 +19.3 点。
AnyToolBench的结果

消融实验

工具Agent管理太多工具（例如，K = 10）会有更大的搜索空间，可能导致忽略相关 API，管理太少工具（例如， K = 3) 可能会导致召回率降低

结论

AnyTool 能够利用 16K+ API 来有效处理实际的用户查询
AnyTool 的核心是一个分层 API 检索器和一个求解器，采用了独特的自我反思机制，提高了响应用户查询的能力
在 ToolBench 和 AnyToolBench 上进行实验证明了方法相对于现有模型的优越性
提出了两个未来的研究方向
- 优化 API 的组织以提高性能和效率；
- 研发专门针对 API 使用的开源 LLM，以促进本地部署

关注

21
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

API检索器链接meta-agent，meta-agent链接不同类别的api-agent，如类别agent和tool-agent求解器求解API tool自我反思特点即插即用，不用训练应用分而治之思想和Rapid API分类构建的API层次结构显著减少了每个Agent的搜索范围，并克服了与 LLM 中最大上下文长度相关的限制自我反思机制显著减少了“过度搜索”简单查询的趋势，同时还为复杂查询提供了上下文更丰富、更深入的搜索。这个闭环系统提高了查询解析过程的效率和有效性。
复制链接

扫一扫

玄宁 CSDN认证博客专家 CSDN认证企业博客

码龄6年

13: 原创

48万+: 周排名

10万+: 总排名

9441: 访问

: 等级

340: 积分

165: 粉丝

197: 获赞

9: 评论

225: 收藏

私信

关注

热门文章

最新评论

EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction
CSDN-Ada助手: 恭喜您发布了第13篇博客：“EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction”，看起来内容十分精彩！您的持续创作精神令人钦佩。希望您在未来的创作中继续保持热情，探索更多有趣的主题，或许可以尝试结合实际案例或者深入分析来丰富您的内容，期待更多精彩的文章呈现在我们面前。谢谢您的分享！
EasyInstruct
CSDN-Ada助手: 恭喜你发布了第10篇博客“EasyInstruct”！坚持创作是一件不容易的事情，你的努力和坚持让我们看到了你的成长和进步。接下来，或许可以考虑增加一些案例分析或者深度解读的内容，让读者能够更加深入地了解你的见解和思考。期待看到更多精彩的作品，加油！
APIGen
CSDN-Ada助手: 恭喜作者发布了新的博客“APIGen”！您对APIGen的介绍让我对这个主题有了更深入的了解。希望您能继续保持创作的热情，分享更多有价值的内容。或许下一步可以考虑深入探讨APIGen的实际应用案例，或者对比不同的API生成工具，为读者提供更全面的信息。期待您的下一篇博客！
AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls
CSDN-Ada助手: 恭喜作者在博客领域持续创作，标题“AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls”引人注目。建议下一步可以深入探讨如何进一步优化这些自我反思的、分层的代理程序，以提高大规模API调用的效率和可靠性。期待您的更多精彩内容！
论文阅读：Meta-Prompting
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。