增强游戏狼人杀中LLM的推理能力

24年2月腾讯实验室的论文“Enhance Reasoning for Large Language Models in the Game Werewolf”。

将LLM与外部的Thinker模块集成在一起,增强基于LLM智体的推理能力。Thinker直接利用数据库中的知识,并采用各种优化技术,这与提示工程增强LLM不同。该框架形成了一个推理体系,LLM处理直观系统-1任务,如自然语言处理,而Thinker则专注于需要复杂逻辑分析和特定域知识的认知系统-2任务。在一个9人狼人杀游戏中用一个双机系统推理。LLM和Thinker之间有一个通信协议,并用18800次人机对话和强化学习的数据来训练Thinker。此外,与Thinker集成时,对6B LLM进行微调,使其性能超过GPT4。为此也建立了迄今为止最大的社会演绎游戏数据集。

狼人杀游戏分为两个派系:“好”派系,村民和特殊角色,以及“狼人”派系。此外,还有一名主持人(Moderator)负责管理游戏并确保遵守规则。“好”派系的目标是识别并处决所有狼人,而狼人的目标是杀死或流放所有村民或所有特殊角色。

游戏由3名村民、3名狼人和3个特殊角色(先知Seer、女巫Witch和猎人Hunter)组成。玩家的身份是相互隐藏的,即使被游戏淘汰后。
狼人:狼人知道彼此的身份。晚上他们决定杀死一个玩家,其中可能包括他们自己。如果出现平局,则随机玩家被杀死。狼人可以在发言过程中自杀,这将暴露他们的身份,

村民:村民没有什么能力,根据发言确定其他玩家的身份,并投票流放潜在狼人。
先知Seer:先知可以每晚验证玩家的派系(狼人或“好”),但不知道他们具体角色。先知无法验证自己或任何已验证的玩家。
女巫:女巫有解药和毒药。解药可以拯救夜间被狼人杀死的玩家,毒药可以杀死玩家。女巫不能在同一个晚上同时使用两种药剂,只能在第一个晚上自救。
猎人:当猎人在晚上被狼人杀死或在白天被投票淘汰时,可以射杀一名玩家。然而,猎人在被女巫毒死时不能使用他的能力。

将LLM与外部推理和决策模块(称为Thinker)协同,旨在增强具有复杂推理能力的基于LLM智体。Thinker和LLM之间的通信,通过结构化功能和提示指令引入一种协议。该框架被分解为三个处理组件:
Listener是理解自然语言的主要接口。它处理语言输入,进行直观的系统-1推理,并将信息转换为Thinker可以解释的结构化语言特征。
Thinker是框架的认知核心。它利用Listener提供的语言功能,专门从事需要深入逻辑分析和特定域知识的System-2推理任务。Thinker制定规划和动作等策略,并为Presenter制定战略指示。
Presenter充当系统的咬合架。它在Thinker的战略指示指导下,产生与当前环境状态相一致的连贯和情境化的语言输出。Presenter确保生成的语言是合乎逻辑的、合理的、一致的,并且没有幻觉。

为了证明框架的有效性,将其应用于复杂的社会推理游戏《狼人杀》。如图是该框架的例子示意图:

添加图片注释,不超过 140 字(可选)

除了直接提示GPT3.5和GPT4生成语言特征外,还从FanLang-9数据集中提取260K个语音实例,用GPT3.5标记语音-特征对,并微调ChatGLM-6B模型以实现相同的推理任务。为了确保语言功能的输出格式,为GPT和微调模型提供了一个后处理滤波器。对于说话者自身属性的表达式,滤波器需要完全匹配。对于与他人属性有关的表达,语音指令中指示的内容必须一致。对于指令中未提及的部分,滤波器允许Presenter在出现幻觉的情况下有一定的余地。语音生成过程进行迭代,直到它成功地满足滤波标准。

  • 16
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值