斯坦福：评估LLM的情感认知能力

最新推荐文章于 2025-04-30 13:54:25 发布

大模型任我行

最新推荐文章于 2025-04-30 13:54:25 发布

阅读量987

点赞数 35

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142679019

版权

大模型-模型评估专栏收录该内容

112 篇文章

订阅专栏

在这里插入图片描述

📖标题：Human-like Affective Cognition in Foundation Models
🌐来源：arXiv, 2409.11733

摘要

🔸理解情感是人类互动和体验的基础。人类很容易从情境或面部表情中推断出情绪，从情绪中推断出情境，并进行各种其他情感认知。现代人工智能在这些推理方面有多熟练？
🔸我们介绍了一个用于在基础模型中测试情感认知的评估框架。从心理学理论出发，我们生成了1280个不同的场景，探索评估、情绪、表达和结果之间的关系。我们评估了基础模型（GPT-4、Claude-3、Gemini-1.5-Pro）和人类（N=567）在精心选择的条件下的能力。
🔸我们的结果表明，基础模型往往与人类直觉一致，匹配或超过参与者之间的一致性。在某些情况下，模型是“超人”的——它们比普通人更好地预测模态人类的判断。所有模型都受益于思维链推理。这表明基础模型已经对情绪及其对信仰和行为的影响有了类似人类的理解。

🛎️文章简介

🔸研究问题：如何评估和提升LLM在情感认知方面的表现，使其能够像人类一样进行情感推理。
🔸主要贡献：论文提出了一种系统化的框架来评估基础模型在情感认知方面的表现，并比较了这些模型与人类判断的一致性。

📝重点思路

🔺相关工作

🔸情感认知：在心理状态的背景下理解他人情绪的能力，以便更深入地了解他人的想法和经验，促进更好的联系和互动。
🔸AI互动能力：衡量模型理解我们的能力愈加重要，需要一个丰富、因果的理论，即情感如何与心理状态和上下文相关。
🔸现有评估：一些工作研究了像GPT-4这样的LLM从小插曲中推断出人们的情绪和评估的能力，但缺乏 ①定义不同类型情感推理类型的原则性方法，以及 ②系统对这些推理进行基准测试。

🔺论文方案

🔸主要思路：采用了一种三阶段的程序生成方法，构建情感认知测试的刺激材料。
🔸阶段1-定义因果模板：基于心理学理论，描述结果、评估和情感之间的因果关系，得到一个一个抽象的因果图，并指定评估维度和其他变量（如结果、情感、面部表情），这些变量将用于生成刺激。。
🔸阶段2-填充因果模板：使用语言模型生成场景和评估维度的值，例如生成一个场景“Amy是一个申请大学的高中生”，并生成与目标一致性和感知控制相关的评估值。
🔸阶段3-构建测试材料：通过生成不同的场景和评估值，系统地生成一系列测试项目，用于评估情感推理能力。
🔸实验：使用两种提示策略（0-shot和0-shot的CoT）测试三个模型（claude-3-opus, gpt-4-turbo, 和gemini-1.5-pro），并比较模型响应与大多数参与者选择的匹配程度。

🔎分析总结

🔸模型在情感推理任务中的表现与人类判断的匹配度较高，甚至在某些情况下超过了人类之间的匹配度。
🔸当模型能够访问面部表情信息时，情感推理的匹配度通常会增加，但gpt-4-turbo除外。
🔸CoT提示策略显著提高了模型的表现，表明推理能力的提升可以进一步提高情感判断的准确性，更灵活的整合来自结果、评估、情感和面部表情的信息进行推理。
🔸基础模型在情感推理方面的表现提出了一些基础认知问题，如情感认知在神经网络中的机械表示、数据需求以及训练后对齐与大规模预训练的影响。