人工智能咨询培训老师叶梓 转载标明出处
最近,由美国乔治亚理工学院的Sihao Hu、Tiansheng Huang和Ling Liu发表的论文介绍了POK´ELLMON,这是一个开创性的基于大模型(LLM)的具身智能体,它在战术战斗游戏中,特别是宝可梦战斗中,实现了与人类相媲美的表现。这标志着人工智能在与虚拟环境互动方面的能力有了显著提升,这种互动方式与人类行为非常相似。

POKE´LLMON系统是一个为宝可梦对战设计的智能体,其框架在图5中有所展示。这个系统的核心在于使用之前的动作和相应的基于文本的反馈来不断优化其策略。它通过分析历史动作和结果来学习并改进其决策过程。
在每一轮对战中,POKE´LLMON会考虑之前采取的动作和这些动作的效果,以此来调整其策略。这个过程是迭代的,系统会不断地从每次对战中学习并更新其行为模式。系统不仅仅是简单地重复之前的动作,而是通过分析反馈来理解哪些动作是有效的,哪些需要改进。
POKE´LLMON还会将当前状态信息与外部知识相结合。这包括宝可梦的类型优势/劣势关系以及招式/特性的效果。这些信息对于制定有效的对战策略至关重要。例如,了解某个宝可梦类型对另一个类型有优势,可以帮助系统决定在特定情况下使用哪些宝可梦或招式。
系统将上述所有信息作为输入,独立生成多个可能的动作。这些动作是系统基于当前对战环境和已有知识生成的。然后,系统会在这些生成的动作中选择最一致的动作作为最终输出执行。选择最一致的动作意味着系统会优先考虑那些与它的策略和目标最匹配的动作,从而提高其在对战中的成功率。
POK´ELLMON的设计包括三个关键策略:
1、上下文强化学习
在POK´ELLMON的设计中,上下文强化学习(ICRL)扮演了一个至关重要的角色。这种学习机制的核心在于利用战斗过程中产生的即时文本反馈,来动态调整智能体的行动策略。这种反馈可以是关于宝可梦HP的变化、攻击招式的有效性、招式执行的优先级,或是招式的实际效果等。这些信息被智能体用作一种“奖励”,帮助其在没有额外训练的情况下,即时优化其决策过程。
在实际应用中,ICRL生成了四种类型的反馈: