增强游戏狼人杀中LLM的推理能力-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139513627

24年2月腾讯实验室的论文“Enhance Reasoning for Large Language Models in the Game Werewolf”。

将LLM与外部的Thinker模块集成在一起，增强基于LLM智体的推理能力。Thinker直接利用数据库中的知识，并采用各种优化技术，这与提示工程增强LLM不同。该框架形成了一个推理体系，LLM处理直观系统-1任务，如自然语言处理，而Thinker则专注于需要复杂逻辑分析和特定域知识的认知系统-2任务。在一个9人狼人杀游戏中用一个双机系统推理。LLM和Thinker之间有一个通信协议，并用18800次人机对话和强化学习的数据来训练Thinker。此外，与Thinker集成时，对6B LLM进行微调，使其性能超过GPT4。为此也建立了迄今为止最大的社会演绎游戏数据集。

狼人杀游戏分为两个派系：“好”派系，村民和特殊角色，以及“狼人”派系。此外，还有一名主持人（Moderator）负责管理游戏并确保遵守规则。“好”派系的目标是识别并处决所有狼人，而狼人的目标是杀死或流放所有村民或所有特殊角色。

游戏由3名村民、3名狼人和3个特殊角色（先知Seer、女巫Witch和猎人Hunter）组成。玩家的身份是相互隐藏的，即使被游戏淘汰后。
狼人：狼人知道彼此的身份。晚上他们决定杀死一个玩家，其中可能包括他们自己。如果出现平局，则随机玩家被杀死。狼人可以在发言过程中自杀，这将暴露他们的身份，

村民：村民没有什么能力，根据发言确定其他玩家的身份，并投票流放潜在狼人。
先知Seer：先知可以每晚验证玩家的派系（狼人或“好”），但不知道他们具体角色。先知无法验证自己或任何已验证的玩家。
女巫：女巫有解药和毒药。解药可以拯救夜间被狼人杀死的玩家，毒药可以杀死玩家。女巫不能在同一个晚上同时使用两种药剂，只能在第一个晚上自救。
猎人：当猎人在晚上被狼人杀死或在白天被投票淘汰时，可以射杀一名玩家。然而，猎人在被女巫毒死时不能使用他的能力。

将LLM与外部推理和决策模块（称为Thinker）协同，旨在增强具有复杂推理能力的基于LLM智体。Thinker和LLM之间的通信，通过结构化功能和提示指令引入一种协议。该框架被分解为三个处理组件：
Listener是理解自然语言的主要接口。它处理语言输入，进行直观的系统-1推理，并将信息转换为Thinker可以解释的结构化语言特征。
Thinker是框架的认知核心。它利用Listener提供的语言功能，专门从事需要深入逻辑分析和特定域知识的System-2推理任务。Thinker制定规划和动作等策略，并为Presenter制定战略指示。
Presenter充当系统的咬合架。它在Thinker的战略指示指导下，产生与当前环境状态相一致的连贯和情境化的语言输出。Presenter确保生成的语言是合乎逻辑的、合理的、一致的，并且没有幻觉。

为了证明框架的有效性，将其应用于复杂的社会推理游戏《狼人杀》。如图是该框架的例子示意图：

添加图片注释，不超过 140 字（可选）

除了直接提示GPT3.5和GPT4生成语言特征外，还从FanLang-9数据集中提取260K个语音实例，用GPT3.5标记语音-特征对，并微调ChatGLM-6B模型以实现相同的推理任务。为了确保语言功能的输出格式，为GPT和微调模型提供了一个后处理滤波器。对于说话者自身属性的表达式，滤波器需要完全匹配。对于与他人属性有关的表达，语音指令中指示的内容必须一致。对于指令中未提及的部分，滤波器允许Presenter在出现幻觉的情况下有一定的余地。语音生成过程进行迭代，直到它成功地满足滤波标准。