在狼人杀策略游戏中带RL的语言智体

23年10月的论文“Language Agents with RL for Strategic Play in the Werewolf Game”。

以强化学习(RL)为动力,为流行的狼人杀语言游戏开发战略语言智体,即具有战略思维能力的基于LLM智体。狼人杀是一款隐藏角色的社会演绎游戏,既有合作,也有竞争,强调欺骗性的通信和多样的游戏。智体首先使用LLM来推理潜在的欺骗行为,并产生一系列具有战略多样性的动作来处理这个游戏。然后,基于人群的训练学习从多候选中选择动作的RL策略,增强智体的决策能力。将LLM与RL策略相结合,智体产生各种涌现策略,与其他LLM智体对抗中实现最高胜率,在狼人杀游戏中与对抗人类玩家保持鲁棒。

如图是一个有七名玩家的狼人杀游戏的例子。玩家被随机分配一个隐藏的角色,分为狼人和村民。游戏在昼夜回合之间交替进行,直到狼人或村民达到获胜条件。

添加图片注释,不超过 140 字(可选)

如图所示:通过强化学习(RL)构建具有战略思考能力的基于LLM智体,称之为战略语言智体。智体使用LLM首先区分可信信息和潜在的欺骗,并应用演绎推理来分析其他玩家的隐藏角色。然后,使用分类信息和推理结果为具有战略多样性行动候选的LLM做提示。
(1) 演绎推理:对关键信息进行分类,运用LLM进行演绎推理。
(2) 多样化动作生成:促使LLM生成一组具有战略多样性的动作候选。
(3) 基于群体的RL训练:通过与自身、旧智体版本和智体池进行对抗来学习RL策略。

添加图片注释,不超过 140 字(可选)

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值