摘要 这是一篇TOM benchmark的文章 (就是获得一个机器写的数据集)
随着大型语言模型(LLM)越来越多地融入我们的日常生活,了解它们理解人类心理状态的能力对于确保有效的交互变得至关重要。然而,尽管最近尝试评估LLM的心智理论 (ToM) 推理能力,但这些模型与人类心智理论 (ToM) 的一致性程度仍然是一个微妙的探索话题。这主要是由于两个不同的挑战:(1)以前的评估结果不一致,(2)对现有评估方法有效性的担忧。为了应对这些挑战,我们提出了一个新颖的框架,通过填充因果模板来程序化地生成对LLM的评估。使用我们的框架,我们为LLM创建了一个新的社会推理基准 (BigToM),其中包含 25 个对照和 5,000 个模型编写的评估。我们发现,人类参与者对我们基准的质量评价高于以前的众包评估,并且与专家撰写的评估相当。使用 BigToM,我们评估了各种LLM的社会推理能力,并将模型表现与人类表现进行比较。我们的结果表明,GPT4 具有反映人类推理模式的 ToM 功能,尽管不太可靠,而其他LLM则不太行。
ToM
人类不断尝试了解他人的想法、需求和感受。我们试图通过推断人们的心理状态来了解他们做了什么并预测他们下一步可能会做什么。这种能力通常被称为“心理理论(ToM),是社交互动的基础。
贡献
总的来说,我们的贡献如下:
(1)我们提出了一个从因果模板生成系统评估的框架,帮助我们通过自动化、受控的测试来理解模型的行为、它的失败和成功。
(2) 我们通过将其质量与众包和专家书面测试进行比较,展示了可扩展、经济高效的语言模型编写评估方法的有效性。
(3) 最后,我们使用不同的提示技术在各种 LLM 中测试 ToM 推理,并将模型与人类进行比较。我们发现 gpt-4 显示了类似于人类的 ToM 推理模式,尽管不太可靠,而其他LLM则陷入困境。
方法
[a] 因果模板和示例场景,包括先前的愿望、行动和信念,以及改变环境状态的因果事件。 [b] 通过操纵代理的percept来测试前向信念推理。 TB = 真实的信仰。 FB = 错误信念。 [c] 根据代理的感知进行前向行动推断,这需要对未知信念进行额外的推断。 [d] 向后信念推断需要对代理观察到的行为中的未知感知和信念进行联合推断。人类表现的误差线代表平均值的 95% 自举置信区间。
S1:创建因果模板casual template
先定义变量,比如世界用文字描述agent得到:如图例子The world is set up with a context and description of the agent (“Noor is a barista […]”).然后初始化变量: desire (“Noor wants to make a latte“), percept (“Noor fills a pitcher with oat milk“) and belief (“Noor believes that the pitcher has oat milk“).然后因为casual event环境改变了 (“oat milk“ → “almond milk”). We can now manipulate the agent’s percept of the causal event and the resulting action the agent will take.
1、先对prior(图a右侧prior中)的非红色文字进行推理 :Initial Percept to Initial Belief (belief就是红色的文字)
This tests if models understand that percepts (and actions) give rise to beliefs: “Noor grabs a pitcher and fills it with oat milk“ → “Noor believes that the milk pitcher contains oat milk“.
2、With vs. Without Initial Belief. We consider two version of the background (prior) scenario. In version one (“without initial belief”), we do not explicitly reveal the agent’s initial belief (i.e. we exclude the sentence “Noor believes that the pitcher has oat milk“). In version two (“with initial belief”), we include the agent’s initial belief in the scenario.
3、forward belief(图b中) infer the belief of the agent given the agent’s percepts of the causal event (see Fig. 1b).
4、forward action(图c) infer the agent’s action given percepts (see Fig. 1c).
5、Backward Belief(图d)infer the agent’s belief from observed actions
S2:填充因果模板
利用pompt的上下文学习来填充,而不是直接告诉LLM让LLM直接回答
对于给定的提示,我们使用 3 个样本示例生成 3 个新的补全。
S3:从模板变量组成测试项
本文测试了Forward Belief (True Belief, False Belief), Forward Action (True Belief, False Belief), and Backward Belief (True Belief, False Belief). 以及Initial Percept to Initial Belief
上面这张图是用来输入给LLM获得因果模板的填充的,用3个这样的样本,生成的结果如下(例子)
可以选择不同的条件来生成不同的数据集(上图中有control是S2步骤中With vs. Without Initial Belief的体现)
例如下图
最终得到的结果例子
结果
结果发现Initial Percept to Initial Belief对于所有的LLM都比较好完成