探索大模型的“心理理论”能力：TMBENCH基准测试

最新推荐文章于 2025-03-03 15:44:13 发布

人工智能大模型讲师培训咨询叶梓

最新推荐文章于 2025-03-03 15:44:13 发布

阅读量1.6k

点赞数 25

分类专栏：人工智能文章标签：人工智能语言模型自然语言处理计算机视觉理论心理评估

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140780026

版权

人工智能咨询培训老师叶梓转载标明出处

心理理论是理解他人信念、意图、情感等心理状态的能力，对人类社会交往至关重要。近期研究引发了关于LLMs是否展现出ToM的辩论。然而，现有的评估方法受限于范围狭窄、主观判断和潜在的数据污染等问题，无法提供充分的评估。为了填补这一空白，清华大学的研究团队及其合作者们提出了TMBENCH，这是一个包含8个任务和31种能力的系统化评估框架，采用多项选择问题格式，支持自动化和无偏见的评估，并构建了全新的双语库存，严格避免数据泄露。

TMBENCH框架

TMBENCH的三个关键特性：系统化评估框架、多项选择问题格式以及从头构建的双语库存。这个框架包括8个任务和31种社交认知能力，并且有2,860个测试样本，涵盖了多样化的真实世界社交场景

TMBENCH的三大特点

系统化评估框架： TMBENCH基于广泛的心理学文献，定义了8个评估ToM能力的社会认知任务，并基于ATOMS（Abilities in the Theory-of-Mind Space）框架，扩展到31种核心ToM能力。
多项选择问题格式： 每个测试样本都是一个故事，后面跟着一个问题和几个可能的选项，其中只有一个正确答案，其他都是高质量的误导性错误答案。
从头开始构建的库存： 为了避免潜在的数据污染，研究者从头开始创建了2860个原始测试样本，并实施了严格的注释和验证程序。