AI agent的核心有两个,执行和自我迭代

今天早上听到一篇播客,播主对于AI Agent的另一个Perspective,对其理解有一些深化

第一条核心链路:预测、决策和执行这条链路,最终核心落脚点在执行(Action),这也是我一直以来比较关注的Agent的核心链路

第二条核心链路:这个事关到这种理解、反思、自我评价、记忆,思维链,最终落脚点在自我迭代和优化(Self Improvement)

联想到两个:

1.一个是Lilian Weng提出的图表(去年年中提出便广为人知)

2. 第二个是Andrej Karpathy在其《大语言模型入门The busy Person's intro to LLMs》的课程中讲过LLM未来的趋势之一——自我完善

在AlphaGo的第一个阶段,它通过模仿人类专家玩家来学习围棋。这种方法有效,但它无法超越人类。DeepMind通过自我完善的方式实现了超越人类的水平。

在围棋这样的封闭环境中,这是可能的,因为有一个简单的奖励函数——赢得比赛。但在开放的语言建模领域,我们缺乏这样的奖励标准。

在狭窄的领域中,自我改进的语言模型是可能的(PS:我们自己也在基于一些垂直的工业应用场景做一些基于强化学习的优化,但是是基于传统数值类的时间序列数据),但如何在一般情况下实现自我提升仍是一个未解之谜。

总结:这两条链路:是AI Agent从理论到实践,从实践再到理论的迭代过程

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值