SELF GENERATED WARGAME AI

文章介绍了大语言模型在兵棋AI中的应用,通过双层Agent结构进行任务规划,自然语言交互下,LLM展现出优于强化学习和规则AI的智能性、可理解性和泛化性。实验结果显示,专家经验的引入显著提高了模型性能。
摘要由CSDN通过智能技术生成

SELF GENERATED WARGAME AI: DOUBLE LAYER AGENT TASK PLANNING BASED ON LARGE LANGUAGE MODEL

自生成兵棋AI:基于大语言模型的双城代理任务规划

  • 摘要

    • 大语言模型应用于智能决策领域,构建了以大语言模型为决策核心的Agent架构

    • 进一步提出两层Agent任务规划,通过自然语言交互下达和执行决策命令,并通过兵棋模拟环境进行模拟验证

    • 实验发现

      • LLM的智能决策能力在智能性、可理解性和泛化性方面,明显强于常用的强化学习AI和规则AI,都更好

      • LLM的智能度与提示密切相关

    • 将LLM从人机交互扩展到智能决策领域,对于智能决策的发展具有重要的参考价值和意义。

Introduction

  • ChatGPT在代码等领域的突破给利用ChatGPT自生成AI在兵棋中做出智能决策带来启示(现今论文很通用的说法)

  • 深度学习、强化学习与智能兵棋不断深入结合,智能体的智能不断提高。但规则AI因规则的限制难以突破规则的上限;强化学习、深度学习可解释性差,难以实现场景和捕获点变化下的模型迁移。

  • 引出 提高人工智能在智能兵棋领域的智能化和泛化性成为进一步研究的重点。

  • 文中又提到,对抗博弈的决策是复杂且连续的。为了使决策更加智能和泛化,论文设计一种基于大语言模型的自生成AI兵棋架构。创建一种决策机制,涉及多个生成代理交互、模仿人类行为并生成可解释、可信且高度通用的游戏对抗性智能决策。

  • 论文三点核心工作

    • 自生成兵棋架构:multi-agent,每个agent可以通过反射流和记忆流相互通信和协作,并共同做出决策。可以相互交谈,达到共享信息,分析情况,并根据谈话内容做出推断和决策的目的(每个代理都有LLM驱动,multi-agent几乎都是这样处理的)

    • 构建两层Agent任务规划模型,分战略Agent和战术Agent来规划游戏对抗过程的任务

      • 战略Agent描述所有当前代理观察到的特定情况。规划是指根据观察到的情境信息来分配和执行任务。

      • 战术Agent只关注单个Agent棋子观察到的情况,并根据战略规划Agent执行相关任务。战术Agent针对战略Agent发出的提示,也有自己的判断和反馈。

    • 以兵棋为实验平台,实验表明大语言模型的智能决策能力明显强于强化学习AI和规则AI,且智能性、可理解性、泛化性均更好。同时发现,向大型语言模型提供该领域专家的先验知识可以显著提高智力

生成式兵棋AI架构

图一:自生成兵棋AI在环境中交互的一个案例展示

图2:战略Agent和战术Agent关系

  • Agent架构组件

    • 内存流:存储和分配缓冲区、生成批次

    • 反射流:使用批处理作为LLM提示的反射流,了解其在决策中的作用

    • 任务规划流:使Agent整合信息、制定更好的规划

生成式兵棋AI模型

Agent互动

  • LLM将自然语言转换为简洁的符号表示给出action建议

图3:双层Agent任务规划决策框架

  • 生成action步骤:

    • LLM与检索信息结合,利用提示调整输出

    • 架构为LLM提供提示

    • LLM选择action的数字

    • Agent根据数字采取行动

  • 挑战: 生成最相关的内存片段,同时从内存流中检索和合成相关数据

    • 全用gpt-4成本高、效率低,所以在不影响效果的情况下,战略Agent用gpt-4,战术用gpt-3.5

  • 内存流

    • 内存对象列表

      • 每个对象包括自然语言描述、创建时间、最近访问时间

      • 基本元素:观察,Agent观察到的所有情景信息

    • 检索函数:从Agent的观察中提取信息。选择性的、优先提取最近观察、重要节点、相关记忆

      • 重要性分数:从记忆流中检索相应的记忆形成提示,让代理生成相应的重要性分数并将其存储回记忆流中

      • 利用这个分数提取信息。score_final = α_recency ∗ score_recency + α_importance ∗ score_importance + α_relevance ∗ score_relevance

  • 反射流:通过对信息的观察和行动的规划来推断和生成高级推理语义

    • 检索函数中的分数超过一定阈值时,就会触发反射

    • 步骤:根据兵棋Agent之前的经验流程提出问题并进行反思过程

  • 任务规划流

    • 战略Agent将所有Agent观察的结果描述为:<总结、观察、规划>

仿真实验

规则:红蓝双方争夺中间控制点(红旗),最先到达控制点的一方获胜。或者如果一方被另一方彻底消灭,则另一方获胜

  • 表一:在杀死、达成目标、生存三个任务上的得分

    • GWAE:本文模型+专家经验
    • GWA:本文模型

  • 所有算法的胜率线图

图6:平均胜率图

  • 左图平均胜率散点图,右图任务平均得分热图

  • 实验结论:输入专家经验能够显著提高模型性能,GWA和GWAE性能显著优于强化学习算法

结论

  • 决策用大语言模型经过充分的提前训练,在实际游戏对抗中具有很强的适应性。无需等待重新开始训练,对于不同任务具有很强的智能性和泛化性

  • 大语言模型所表现出的智能明显强于一般的强化学习算法

  • 大语言模型的智能程度与提示之间存在显著的相关性

  • 创新点

    • 大语言模型从以往的人机交互扩展到了智能决策领域

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值