近日,中科院自动化所神经计算与脑机交互团队(NeuBCI)设计了基于表征相似性分析的联合训练框架,实现了神经网络模型和人类大脑情绪表征的对齐,增强了模型的类脑特性并提升了模型情绪感知能力。相关研究成果以Improved Video Emotion Recognition with Alignment of CNN and Human Brain Representations为题发表于情感计算领域权威期刊IEEE Transactions on Affective Computing。相关代码和数据集已经开源。
图灵奖得主Marvin Minsky曾在其著作《The Society of Mind》中指出是否具有情感是判断一个机器是否智能的重要因素,因此如何提升机器的情感智能是情感计算研究中的关键问题。而智能机器在其接收的多种情绪刺激源中,视觉信息占据着绝大部分,因此我们把任务聚焦于用户生成视频(用户在短视频平台上发布的原创内容)的情绪识别。
先前关于用户生成视频的情绪识别研究主要集中在属性特征的设计(如Sentibank)以及网络结构设计(如引入注意力机制进行关键帧的定位),然而这些方法难以克服视觉语义和情绪表达之间的鸿沟从而导致模型的情绪理解能力有限。本研究另辟蹊径来解决这一问题,考虑到情绪是人类特有的高级认知功能,研究团队试图把人类的情绪感知能力“迁移”到视频情绪识别模型中,从提升模型的类脑特性的角度出发提高其情感智能。
图1 视觉诱发情绪脑活动数据获取示意图。
为了实现上述“迁移”,研究人员利用人脑在自然视觉刺激下的神经影像数据(如图1所示)将深度学习模型和大脑的情绪表征进行对齐。这其中面临三个主要难题:其一是如何选择情绪相关的大脑响应和深度神经网络的特征用于后续研究;其二是如何处理被试之间情绪感知的差异性从而更高效地利用已有数据;其三是如何在具有高度异质性的深度学习模型的表征和大脑响应之间建立联系。
图2 情绪类别评分和视觉特征的预测准确度的差异在皮层上的投影。
对于第一个难题,研究人员首先基于神经影像数据构建体素级编码模型,模型的输入特征为情绪类别评分和视觉特征两部分,输出为大脑的体素响应。考虑到实验需要获取大脑对情绪的表征而排除视觉信息的干扰,研究人员将视觉特征也一并用作编码模型的输入特征构建带状岭回归模型,模型的预测结果如图2所示。研究团队对每个被试根据体素预测的显著性水平(p<0.01,FDR-corrected)确定体素选择的阈值。而在深度学习模型的特征选择方面,由于缺乏用于特征选择的先验知识(即难以获得神经网络的层次表征和情绪感知的相关性),研究团队对神经网络的每一层特征进行加权从而得到最终的神经网络特征,其中权重是可学习的参数。
图3 被试差异性的可视化分析。左图:每个被试在使用线性模型降噪前后的表征相似性矩阵的可视化,(a)为原始脑信号的结果,(b)为线性模型输出替代原始脑信号的结果。右图:对左图所示的被试间差异性的定量分析。
对于第二个难题,研究团队拟使用上述带状岭回归模型的输出替代原始的神经响应数据进行后续的实验。这是基于两个考虑,其一是高度正则化的线性模型可以对信噪比较低的神经响应信号起到降噪的效果;其二是考虑到被试间情绪感知的差异性,这种方式可以提高被试之间大脑情绪表征的一致性,从而可以有效利用多个被试的数据,其定量和定性的分析结果如图3所示。
图4 基于表征相似性分析的联合训练策略框架图(以3D-ResNet18为例)
对于第三个难题,研究人员提出一种基于表征相似性分析的联合训练框架来对齐异质的神经网络表征和大脑响应,如图4所示。其中神经网络的表征相似性矩阵代表不同的用户生成视频之间的情感相似度,而大脑的表征相似性矩阵代表不同情绪刺激的脑信号之间的相似度,如图5所示。在训练过程中,除了计算分类损失外,还需计算神经网络和大脑信号之间表征相似性矩阵的差异损失,从而使神经网络具有一定的判别能力的同时又更加类脑。在模型的测试阶段,只需要输入用户生成视频,而不需要神经响应的参与。这个过程可以看作是基于样本相似度的知识蒸馏,其中人脑作为教师,而神经网络作为学生。
图5 利用人脑情绪响应构建的表征相似性矩阵,
视频刺激的情绪类别越相近,脑信号的相似度越高。
表1 在两个数据集和多种主流CNN上的情绪识别结果
研究人员在两个数据集和多种主流的CNN结构上进行了实验,实验结果如表1所示。可以发现,采用脑信号指导的神经网络具有更好的情绪感知能力。与此同时,采用线性模型降噪的脑信号指导效果强于直接使用原始的脑信号。最后,采用行为学数据构建表征相似性矩阵从而使神经网络与人类行为对齐也对模型有一定的性能提升,但效果不如将其与大脑表征对齐。
图6 不同脑区的神经响应指导模型训练的结果
研究人员进一步分析了使用不同脑区的脑响应进行指导的效果差异,如图6所示。从中可以看出,将神经网络表征与颞顶交接区(temporo-parietal junction,TPJ)和背内侧前额叶皮层(dorsomedial prefrontal cortex,DMPFC)两个脑区的响应进行对齐可以得到更好的效果。这两个脑区位于默认模式网络(default mode network,DMN)中,与人类的内源性过程相关,如检测和调节情绪状态。因此,这项研究从大脑信号指导情绪识别模型性能提升的角度为探索情绪在大脑中表征模式这一科学问题提供了新视角。
图7 联合训练后的模型与普通CNN的类脑特性对比。左图通过构建编码模型,采用Brain-Score指标进行量化。右图直接计算神经网络特征和大脑响应之间的斯皮尔曼秩相关系数。
最后,研究人员对与人脑表征对齐后的神经网络的类脑特性进行了评估。研究人员采用Brain-score和斯皮尔曼秩相关系数两个定量的指标分析了模型的类脑特性,如图7所示。可以看出,经过对齐后的神经网络类脑特性得到了提升,研究人员推测这是模型引入脑信号指导后情绪感知能力提升的主要原因。
综上,本研究提出了一种基于表征相似性分析的联合训练框架,对齐深度网络和大脑的情绪表征,提升了模型的类脑特性,进而增强了模型的情绪感知能力。研究团队认为,利用人类智能提高深度学习模型的性能具有很大潜力,这也是深度学习模型的发展回到其本源的体现,近期大模型训练中所使用的人类反馈强化学习(RLHF)机制也是利用了这一思想。基于此,本研究提出的方法也可作为一个通用框架使用,助力人机混合智能的发展。
该论文第一作者为中科院自动化所博士生付铠城,通讯作者为何晖光研究员,杜长德副研究员和汪胜佩副研究员也参与了本项研究。研究工作得到了科技部科技创新2030—“新一代人工智能”重大项目、基金委项目、以及CAAI-华为MindSpore学术奖励基金及智能基座等项目的支持。
文章链接:
https://ieeexplore.ieee.org/abstract/document/10254274
代码链接:https://osf.io/ucx57
—— End ——
仅用于学术分享,若侵权请留言,即时删侵!
更多阅读
专家观点:最近Neuralink FDA IDE的真正含义是什么?
加入社群
欢迎加入脑机接口社区交流群,
探讨脑机接口领域话题,实时跟踪脑机接口前沿。
加微信群:
添加微信:RoseBrain【备注:姓名+行业/专业】。
加QQ群:913607986
欢迎来稿
1.欢迎来稿。投稿咨询,请联系微信:RoseBrain
2.加入社区成为兼职创作者,请联系微信:RoseBrain
一键三连「分享」、「点赞」和「在看」
不错每一条脑机前沿进展 ~