今天早上听到一篇播客,播主对于AI Agent的另一个Perspective,对其理解有一些深化
第一条核心链路:预测、决策和执行这条链路,最终核心落脚点在执行(Action),这也是我一直以来比较关注的Agent的核心链路
第二条核心链路:这个事关到这种理解、反思、自我评价、记忆,思维链,最终落脚点在自我迭代和优化(Self Improvement)
联想到两个:
1.一个是Lilian Weng提出的图表(去年年中提出便广为人知)
2. 第二个是Andrej Karpathy在其《大语言模型入门The busy Person's intro to LLMs》的课程中讲过LLM未来的趋势之一——自我完善
在AlphaGo的第一个阶段,它通过模仿人类专家玩家来学习围棋。这种方法有效,但它无法超越人类。DeepMind通过自我完善的方式实现了超越人类的水平。
在围棋这样的封闭环境中,这是可能的,因为有一个简单的奖励函数——赢得比赛。但在开放的语言建模领域,我们缺乏这样的奖励标准。
在狭窄的领域中,自我改进的语言模型是可能的(PS:我们自己也在基于一些垂直的工业应用场景做一些基于强化学习的优化,但是是基于传统数值类的时间序列数据),但如何在一般情况下实现自我提升仍是一个未解之谜。
总结:这两条链路:是AI Agent从理论到实践,从实践再到理论的迭代过程