探索大模型的“心理理论”能力:TMBENCH基准测试

人工智能咨询培训老师叶梓 转载标明出处

心理理论是理解他人信念、意图、情感等心理状态的能力,对人类社会交往至关重要。近期研究引发了关于LLMs是否展现出ToM的辩论。然而,现有的评估方法受限于范围狭窄、主观判断和潜在的数据污染等问题,无法提供充分的评估。为了填补这一空白,清华大学的研究团队及其合作者们提出了TMBENCH,这是一个包含8个任务和31种能力的系统化评估框架,采用多项选择问题格式,支持自动化和无偏见的评估,并构建了全新的双语库存,严格避免数据泄露。

TMBENCH框架

TMBENCH的三个关键特性:系统化评估框架、多项选择问题格式以及从头构建的双语库存。这个框架包括8个任务和31种社交认知能力,并且有2,860个测试样本,涵盖了多样化的真实世界社交场景
TMBENCH的三大特点
  • 系统化评估框架: TMBENCH基于广泛的心理学文献,定义了8个评估ToM能力的社会认知任务,并基于ATOMS(Abilities in the Theory-of-Mind Space)框架,扩展到31种核心ToM能力。
  • 多项选择问题格式: 每个测试样本都是一个故事,后面跟着一个问题和几个可能的选项,其中只有一个正确答案,其他都是高质量的误导性错误答案。
  • 从头开始构建的库存: 为了避免潜在的数据污染,研究者从头开始创建了2860个原始测试样本,并实施了严格的注释和验证程序。
8个心理理论任务

TMBENCH框架的核心是对大型语言模型(LLMs)在心理理论(ToM)方面的能力进行评估。为此,研究者首先从心理学文献中识别出8个广泛用于评估ToM能力的社交认知任务。这些任务包括:

  • Unexpected Outcome Test(意外结果测试):评估参与者推断角色在情绪激发情境与实际激发情绪之间明显差异时的心理状态。
  • Scalar Implicature Task(量词含义任务):涉及不完全信息情况下,说话者使用术语如“一些”来暗示“不是全部”。
  • Persuasion Story Task(说服故事任务):评估参与者理解和选择有效说服策略的能力,反映他们如何影响他人的心理状态和态度。
  • False Belief Task(错误信念任务):检验参与者是否能够区分自己的信念(真实信念)和他人的信念(错误信念)。
  • Ambiguous Story Task(模糊故事任务):提供不明确的社交小插曲,随后的问题评估参与者对他人在不确定情境下的心理状态的理解
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值