23年10月的论文“Language Agents with RL for Strategic Play in the Werewolf Game”。
以强化学习(RL)为动力,为流行的狼人杀语言游戏开发战略语言智体,即具有战略思维能力的基于LLM智体。狼人杀是一款隐藏角色的社会演绎游戏,既有合作,也有竞争,强调欺骗性的通信和多样的游戏。智体首先使用LLM来推理潜在的欺骗行为,并产生一系列具有战略多样性的动作来处理这个游戏。然后,基于人群的训练学习从多候选中选择动作的RL策略,增强智体的决策能力。将LLM与RL策略相结合,智体产生各种涌现策略,与其他LLM智体对抗中实现最高胜率,在狼人杀游戏中与对抗人类玩家保持鲁棒。
如图是一个有七名玩家的狼人杀游戏的例子。玩家被随机分配一个隐藏的角色,分为狼人和村民。游戏在昼夜回合之间交替进行,直到狼人或村民达到获胜条件。
如图所示:通过强化学习(RL)构建具有战略思考能力的基于LLM智体,称之为战略语言智体。智体使用LLM首先区分可信信息和潜在的欺骗,并应用演绎推理来分析其他玩家的隐藏角色。然后,使用分类信息和推理结果为具有战略多样性行动候选的LLM做提示。
(1) 演绎推理:对关键信息进行分类,运用LLM进行演绎推理。
(2) 多样化动作生成:促使LLM生成一组具有战略多样性的动作候选。
(3) 基于群体的RL训练:通过与自身、旧智体版本和智体池进行对抗来学习RL策略。