人工智能咨询培训老师叶梓 转载标明出处
心理理论是理解他人信念、意图、情感等心理状态的能力,对人类社会交往至关重要。近期研究引发了关于LLMs是否展现出ToM的辩论。然而,现有的评估方法受限于范围狭窄、主观判断和潜在的数据污染等问题,无法提供充分的评估。为了填补这一空白,清华大学的研究团队及其合作者们提出了TMBENCH,这是一个包含8个任务和31种能力的系统化评估框架,采用多项选择问题格式,支持自动化和无偏见的评估,并构建了全新的双语库存,严格避免数据泄露。
TMBENCH框架

TMBENCH的三大特点
- 系统化评估框架: TMBENCH基于广泛的心理学文献,定义了8个评估ToM能力的社会认知任务,并基于ATOMS(Abilities in the Theory-of-Mind Space)框架,扩展到31种核心ToM能力。
- 多项选择问题格式: 每个测试样本都是一个故事,后面跟着一个问题和几个可能的选项,其中只有一个正确答案,其他都是高质量的误导性错误答案。
- 从头开始构建的库存: 为了避免潜在的数据污染,研究者从头开始创建了2860个原始测试样本,并实施了严格的注释和验证程序。
8个心理理论任务
TMBENCH框架的核心是对大型语言模型(LLMs)在心理理论(ToM)方面的能力进行评估。为此,研究者首先从心理学文献中识别出8个广泛用于评估ToM能力的社交认知任务。这些任务包括:
- Unexpected Outcome Test(意外结果测试):评估参与者推断角色在情绪激发情境与实际激发情绪之间明显差异时的心理状态。
- Scalar Implicature Task(量词含义任务):涉及不完全信息情况下,说话者使用术语如“一些”来暗示“不是全部”。
- Persuasion Story Task(说服故事任务):评估参与者理解和选择有效说服策略的能力,反映他们如何影响他人的心理状态和态度。
- False Belief Task(错误信念任务):检验参与者是否能够区分自己的信念(真实信念)和他人的信念(错误信念)。
- Ambiguous Story Task(模糊故事任务):提供不明确的社交小插曲,随后的问题评估参与者对他人在不确定情境下的心理状态的理解