CMU-MOSEI数据集解读

CMU-MOSEI数据集解读

    <div id="blogColumnPayAdvert">
        <div class="column-group">
            <div class="column-group-item column-group0 column-group-item-one">
                <div class="item-l">
                    <a class="item-target" href="https://blog.csdn.net/m0_46979525/category_11396824.html" target="_blank" title="论文翻译" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.6332&quot;}">
                        <img class="item-target" src="https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224" alt="">
                        <span class="title item-target">
                            <span>
                            <span class="tit">论文翻译</span>
                                <span class="dec">专栏收录该内容</span>
                            </span>
                        </span>
                    </a>
                </div>
                <div class="item-m">
                    <span>6 篇文章</span>
                    <span>2 订阅</span>
                </div>
                <div class="item-r">
                        <a class="item-target article-column-bt articleColumnFreeBt" data-id="11396824">订阅专栏</a>
                </div>
            </div>
        </div>
    </div>
<article class="baidu_pl">
    <div id="article_content" class="article_content clearfix">
    <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css">
    <link rel="stylesheet" href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_views-6e43165c0a.css">
            <div id="content_views" class="markdown_views prism-atom-one-light" style="user-select: auto;">
                <svg xmlns="http://www.w3.org/2000/svg" style="display: none;">
                    <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path>
                </svg>
                <h1><a name="t0"></a><a id="Multimodal_Language_Analysis_in_the_WildCMUMOSEI_Dataset_and_Interpretable_Dynamic_Fusion_Graph_0"></a>Multimodal Language Analysis in the Wild:CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph</h1> 

作者:

  • Amir Zadeh(Language Technologies Institute,CMU, USA)
  • Paul Pu Liang(Machine Learning Department, CMU, USA)
  • Jonathan Vanbriesen(Language Technologies Institute,CMU, USA)
  • Soujanya Poria(A*STAR,Singapore)
  • Edmund Tong(Language Technologies Institute,CMU, USA)
  • Erik Cambria(Nanyang Technological University,Singapore)
  • Minghai Chen(Language Technologies Institute,CMU, USA)
  • Louis-Philippe Morency(Language Technologies Institute,CMU, USA)

发布时间:2018.7.15
paper:Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers)


论文链接:https://aclanthology.org/P18-1208.pdf
论文GitHub:https://github.com/A2Zadeh/CMU-MultimodalSDK
数据集下载链接:http://immortal.multicomp.cs.cmu.edu/raw_datasets/CMU_MOSEI.zip


论文结构:
论文结构


数据集解读:

  1. 参考论文?官网?建库团队?

参考论文:CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph
官网:http://immortal.multicomp.cs.cmu.edu/raw_datasets/CMU_MOSEI.zip
建库团队:1- Language Technologies Institute,CMU, USA;2- Machine Learning Departmentg, CMU, USA;3- A*STAR, , Singapore;4- Nanyang Technological Universityg, Singapore

  1. 有几种模态?分别是哪些?

模态:3种(语言,视觉,声音)

  1. 哪些标签?如何标注的?

既有情感标注又有情绪标注。情感标注是对每句话的7分类的情感标注,作者还提供了了2/5/7分类的标注。情绪标注是包含高兴,悲伤,生气,恐惧,厌恶,惊讶六个方面的情绪标注。数据集是多标签特性,即每一个样本对应的情绪可能不止一种,对应情绪的强弱也不同,在[-3~3]之间。

  1. 如何得到这些数据集的?

收集的数据来自YouTube的独白视频,去掉了那些包含过多人物的视频,并通过注释和特征提取得到最终数据。

  1. 数据集大小?单个视频时长?

最终的数据集包含3228个视频,23453个句子,1000个讲述者,250个话题,总时长达到65小时(平均单个视频时长为0.02小时)

  1. 数据集内容topic

数据集一共包含250个主题(详细可见下文词云图)

  1. 建库年代?

2018年

  1. 被试情况?

GitHub上star数为480,fork数达147


论文翻译:
CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph
多模态语言分析:CMU-MOSEI 数据集和可解释的动态融合图

摘要

分析人类多模态语言是 NLP 的一个新兴研究领域。 本质上,人类交流是多模式(异类)、时间和异步的; 它由异步协调序列形式的语言(单词)、视觉(表达)和声学(副语言)模态组成。从资源的角度来看,真正需要能够对多模态语言进行深入研究的大规模数据集。在本文中,我们介绍了 CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI),这是迄今为止最大的情感分析和情感识别数据集。 使用来自 CMU-MOSEI 的数据和一种称为动态融合图 (DFG) 的新型多模态融合技术,我们进行了实验以研究模态如何在人类多模态语言中相互交互。与之前提出的融合技术不同,DFG 具有高度的可解释性,与当前最先进的技术相比,实现了具有竞争力的性能。

1 引言

语言起源理论将语言和非语言行为(视觉和声学模式)的组合确定为人类在整个进化过程中使用的主要交流形式(Müller,1866)。在自然语言处理中,这种形式的语言被认为是人类的多模态语言。 建模多模态语言最近已成为 NLP 和多模态机器学习的中心研究方向(Hazarika 等,2018;Zadeh 等,2018a;Poria等,2017a;Baltruˇsaitis 等,2017;Chen 等, 2017)。现有研究正尽力构建对多模态语言的双重动态模型:模态内动态(每个模态内的动态)和跨模态动态(跨不同模态的动态)。然而,从资源的角度来看,以往的多模态语言数据集在以下几个方面存在严重的不足:
训练样本的多样性:由于潜在分布的复杂性,训练样本的多样性对于综合多模态语言研究至关重要。这种复杂性源于语言、视觉和声学模态的模态内和跨模态动态的可变性(Rajagopalan 等,2016)。由于与数据获取和注释成本相关的困难,先前提出的多模态语言数据集通常规模较小。
主题的多样性:主题的多样性为跨不同领域的可概括研究打开了大门。仅在少数主题上训练的模型泛化能力很差,因为语言和非语言行为往往会根据主题对说话者内部心理状态的印象而改变。
演讲者的多样性:就像写作风格一样,演讲风格也非常独特。仅针对少数说话者的训练模型会导致退化解决方案,其中模型学习的是说话者的身份,而不是多模态语言的泛化模型(Wang 等,2016)。
注释的多样性:有多个要预测的标签使得可以研究标签之间的关系。拥有多种标签的另一个积极方面是允许多任务学习,这在过去的研究中表现出色。
我们在本文中的第一个贡献是介绍了最大的多模态情感和情感识别数据集,称为 CMU 多模态观点情感和情感强度 (CMUMOSEI)。CMU-MOSEI 包含来自 1000 个不同说话者的 23453 个带注释的视频片段和250 个主题。 每个视频片段都包含与音频到音素级别对齐的手动转录。所有视频均来自在线视频共享网站。该数据集目前是 CMU Multimodal Data SDK 的一部分,可通过Github免费提供给科学界。
我们的第二个贡献是一种称为动态融合图 (DFG) 的可解释融合模型,用于研究多模态语言中跨模态动力学的性质。DFG 包含与模态交互方式直接相关的内置功效。这些功效在我们的实验中被可视化和详细研究。除了可解释性之外,与之前在 CMU-MOSEI 上提出的多模态情感和情感识别模型相比,DFG 实现了卓越的性能。

2 背景

在本节中,我们将CMU-MOSEI 数据集与先前提出的用于建模多模态语言的数据集进行比较。然后,我们描述了用于情感分析和情感识别的baseline和最新模型。

2.1 与其他数据集的比较

我们将 CMU-MOSEI 与用于情感分析和情感识别的大量数据集进行比较。以下数据集的输入数据包括语言、视觉和声学模态的组合。

2.1.1 多模态数据集

CMU-MOSI (Zadeh等, 2016b) 是 2199 个意见视频片段的集合,每个片段都用 [-3,3] 范围内的情绪进行注释。CMU-MOSEI是CMU-MOSI的下一代。ICT-MMMO(W¨ollmer 等,2013 )由在线社交评论视频组成,这些视频在视频级别进行了情感注释。YouTube (Morency等., 2011) 包含来自社交媒体网站YouTube的视频,涵盖广泛的产品评论和意见视频。MOUD(Perez-Rosas 等,2013 )由西班牙语的产品评论视频组成。每个视频由多个标记为积极、消极或中性情绪的片段组成。IEMOCAP (Busso et al., 2008) 包含 151 个录制对话的视频,每个会话有 2 个演讲者,整个数据集共有 302 个视频。 每个部分被注释为存在 9 种情绪(愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中性)以及效价、唤醒和支配。
Table 1
表1:CMU-MOSEI 数据集与之前的情感分析和情感识别数据集的比较。#S 表示注释数据点的数量。#Sp 是不同说话者的数量。Mod表示来自表示为{(l)anguage(语言);(v)ision;(视觉);(a)udio(声音)}的模态子集。Sent 和 Emo 列表示情绪和情感标签的存在。TL 表示视频总小时数。

2.1.2 语言数据集

Stanford Sentiment Treebank (SST) (Socher等, 2013) 在从电影评论数据中收集的句子的解析树中包含短语的细粒度情感标签。 虽然 SST 有更大的注释池,但我们只考虑根级注释进行比较。 Cornell Movie Review(Pang 等,2002 )是 2000 份电影评论文档和句子的集合,这些文档和句子根据其整体情绪极性或主观评分进行了标记。Large Movie Review数据集(Maas 等,2011 )包含来自高度极端电影评论的文本。Sanders Tweets Sentiment (STS) 由 5513 条手工分类的推文组成,每条推文都根据 Microsoft、Apple、Twitter 和 Google 的四个主题之一进行分类。

2.1.3 视觉和声学数据集

Vera am Mittag (VAM) 语料库包含 12 小时的德国电视谈话录音-视频 “Vera am Mittag”(格林等,2008 )。该视听数据被标记为三个情绪原语的连续值尺度:效价、激活和支配。VAM-Audio 和 VAMFaces 是分别包含声学和视觉输入的子集。RECOLA(Ringeval 等人,2013 年)包含 9.5 小时的在线二元交互的音频、视觉和生理(心电图和皮肤电活动)记录。Mimicry (Bilakhia等, 2015) 包含两种情况下人类互动的视听记录:讨论政治话题时和玩角色扮演游戏时。AFEW (Dhall et al., 2012, 2015) 是一个动态时间面部表情数据语料库,由从电影中提取的接近真实世界的环境组成。
CMU-MOSEI 与本节数据集的详细比较如表 1 所示。CMU-MOSEI 具有更长的总持续时间以及更多的数据点。 此外,CMU-MOSEI 的演讲者和主题的数量更多。 它提供了所有三种模式,以及情感和情感的注释。

2.2 基线模型

建模多模态语言一直是 NLP 和多模态机器学习研究的主题。 值得注意的方法列出如下,并在实验和讨论部分(第 5 节)中用符号表示以供参考。

  • # MFN:(Memory Fusion Network)(Zadeh 等人,2018a)使用多视图门控存储器同步多模态序列,该存储器随时间存储视图内和跨视图交互。
  • (小黑方块)MARN:(多注意循环网络)(Zadeh 等人,2018b)通过分配多个注意系数来模拟模内和多模态交互。 模内和跨模态交互存储在混合LSTM 内存组件中。
  • (*)TFN(张量融合网络)(Zadeh 等人,2017年)通过创建一个多维张量来模拟模态间和模态内的相互作用,该张量可捕获单峰、双峰和三峰相互作用。
  •       □
         
        
        
         \Box
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.675em; vertical-align: 0em;"></span><span class="mord amsrm">□</span></span></span></span></span>MV-LSTM</strong> (Multi-View LSTM) (Rajagopalan et al., 2016) 是一个循环模型,它将 LSTM内的区域指定为不同的数据视图。</li><li><strong>(章节符)EF-LSTM</strong>(早期融合 LSTM)在每个时间步连接来自不同模态的输入,并将其用作单个 LSTM 的输入(Hochreiter 和Schmidhuber,1997;Graves等人,2013 年;Schuster 和 Paliwal,1997 年)。在单峰模型的情况下,EF-LSTM 指的是单个 LSTM。<br> 我们还与以下基线模型进行了比较:<strong>† BC-LSTM</strong> (Poria et al., 2017b), <strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ♣
         
        
        
         \clubs
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.82407em; vertical-align: -0.12963em;"></span><span class="mord">♣</span></span></span></span></span>C-MKL</strong> (Poria et al., 2016), <strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ♭
         
        
        
         \flat
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.75em; vertical-align: 0em;"></span><span class="mord">♭</span></span></span></span></span>DF</strong> (Nojavanasghari et al., 2016), <strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ♡
         
        
        
         \heartsuit
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.82407em; vertical-align: -0.12963em;"></span><span class="mord">♡</span></span></span></span></span>SVM</strong> (Cortes 和 Vapnik,1995;Zadeh 等,2016b;Perez-Rosas 等,2013;Park 等,2014)、<strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ∙
         
        
        
         \bullet
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.44445em; vertical-align: 0em;"></span><span class="mord">∙</span></span></span></span></span>RF</strong>(Breiman,2001)、<strong>THMM</strong>(Morency 等,2011)、<strong>SAL-CNN</strong> (Wang 等人,2016 年)、<strong>3DCNN</strong>(Ji 等人,2013 年)。<br> 对于仅语言基线模型:*<span class="katex--inline"><span class="katex"><span class="katex-mathml">
     
      
       
        
         ∪
        
       
       
        \cup
       
      
     </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.55556em; vertical-align: 0em;"></span><span class="mord">∪</span></span></span></span></span>CNN-LSTM** (Zhou et al., 2015)、<strong>RNTN</strong> (Socher et al., 2013)、<strong>×: DynamicCNN</strong> (Kalchbrenner et al., 2014)、<strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ⊳
         
        
        
         \rhd
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58503em; vertical-align: -0.03517em;"></span><span class="mord amsrm">⊳</span></span></span></span></span>DAN</strong> (Iyyer et al., 2015) )、<strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ≀
         
        
        
         \wr
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord">≀</span></span></span></span></span>DHN</strong> (Srivastava et al., 2015)、<strong><span class="katex--inline"><span class="katex"><span class="katex-mathml">
      
       
        
         
          ⊲
         
        
        
         \lhd
        
       
      </span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58503em; vertical-align: -0.03517em;"></span><span class="mord amsrm">⊲</span></span></span></span></span>RHN</strong> (Zilly et al., 2016)。<br> 对于纯声学基线模型:<strong>AdieuNet</strong> (Trigeorgis et al., 2016)、<strong>SERLSTM</strong> (Lim et al., 2016)。</li></ul> 
    

3 CMU-MOSEI 数据集

理解表达的情感和情绪是人类多模态语言中的两个关键因素。我们引入了一个用于多模态情绪和情感识别的新数据集,称为 CMU 多模态观点情绪和情感强度 (CMU-MOSEI)。在下面的小节中,我们首先解释了 CMU-MOSEI 数据获取的细节,然后是注释和特征提取的细节。

3.1 数据采集

社交多媒体提供了一个独特的机会,可以从不同的演讲者和话题中获取大量数据。这些社交多媒体网站的用户经常以独白视频的形式发表他们的意见;只有一个人在镜头前讨论某个感兴趣的话题的视频。每个视频固有地包含三种形式:口头文本形式的语言,通过感知手势和面部表情的视觉,以及通过语调和韵律的声音。

在我们的自动数据采集过程中,使用人脸检测分析来自 YouTube 的视频是否存在一个说话者,以确保视频是独白。我们通过拒绝带有移动摄像头的视频(例如自行车上的摄像头或边走边拍的自拍照),将视频限制在演讲者的注意力只集中在摄像头上的设置中。 我们使用在线视频中 250 个经常使用的主题作为获取的种子。我们限制从每个频道获取的视频数量最多为10个。结果从 YouTube 发现了 1000 个身份。身份的定义代表通道的数量,因为准确的识别需要二次手动注释,这对于大量说话者来说是不可行的。此外,我们限制视频具有上传者提供的手动和正确标点的转录。最终获得的视频库包括 5000 个视频,然后由 14 位专家评委在三个月内手动检查视频、音频和转录的质量。评委还对每个视频进行了性别注释,并确认每个视频都是可接受的独白。人工质检后剩余一组3228个视频。我们还使用面部特征提取置信度和强制对齐置信度对 3.3 节中讨论的视频和转录质量进行了自动检查。此外,我们使用评委提供的数据(57% 男性对 43% 女性)平衡数据集中的性别。这构成了 CMU-MOSEI 中的最后一组原始视频。最后一组视频中涵盖的主题在图 1 中显示为维恩式词云(Coppersmith 和 Kelly,2014),其大小与为该主题收集的视频数量成正比。最常见的 3 个主题是评论 (16.2%)、辩论 (2.9%) 和咨询 (1.8%)。 其余主题几乎均匀分布。

Figure1图 1:CMUMOSEI 中视频主题的多样性,显示为词云。较大的词表示来自该主题的更多视频。 最常见的 3 个主题是评论(16.2%)、辩论(2.9%)和咨询(1.8%),其余主题几乎均匀分布。

然后将最终的视频集标记为使用由抄本手动提供的标点符号的句子。由于数据的高质量,使用标点符号显示出比使用斯坦福 CoreNLP 分词器更好的句子质量(Manning 等,2014)。两位专家在一组 20 个随机视频中验证了这一点。标记化后,选择一组 23,453 个句子作为数据集中的最终句子。这是通过限制每个身份对数据集贡献至少 10 个和最多 50 个句子来实现的。 表 2 显示了 CMU-MOSEI 数据集的高级汇总统计数据。
Table2表 2:CMU-MOSEI 数据集统计数据摘要。

3.2 注释

CMU-MOSEI 的注释与 CMU-MOSI (Zadeh等, 2016a) 和 Stanford Sentiment Treebank (Socher等, 2013) 的注释密切相关。每个句子都在 [-3,3] 里克特量表上针对情绪进行注释:[-3:高度负面,-2 负面,-1 弱负面,0 中性,+1 弱正面,+2 正面,+3 高度正面 ]。Ekman 情绪 (Ekman等, 1980)包括{快乐、悲伤、愤怒、恐惧、厌恶、惊讶}在 [0,3] 范围的里克特量表上注释,用于情绪 x 的存在:[0:没有 x 的证据,1:弱 x, 2: x, 3: 高度 x]。注释由来自 Amazon Mechanical Turk 平台的 3 位众包评委进行。为了避免对评委产生偏见并捕捉人群的原始感知,我们避免了极端的注释训练,而是为评委提供了 5 分钟的关于如何使用注释系统的培训视频。 4、所有标注均由通过率高于98%的大师级工人完成,以保证高质量的标注。
Figure2图 2:CMU-MOSEI 数据集中的情绪和情绪分布。该分布显示出更频繁使用的情绪的自然倾斜。然而,最不常见的情绪,恐惧,仍然有 1900 个数据点,这是机器学习研究可以接受的数字。

图 2 显示了情绪和CMU-MOSEI 数据集中的情绪。分布显示出有利于积极情绪的轻微转变
这类似于 CMU-MOSI 和SST的分布。我们认为这是在线意见略微转向积极时的一种隐含的偏见,因为这也存在于 CMU-MOSI 中。 情绪直方图显示了不同的情绪的不同流行度。最常见的类别是超过 12000 个的幸福正样本。 最不普遍的情绪是包括近 1900 个恐惧正样本点,这都是机器学习研究可接受的数字。

3.3 提取特征

CMU-MOSEI 中的数据点以视频格式出现,摄像头前有一个扬声器。 每种模态的提取特征如下(对于其他基准我们提取相同的特征):

语言:所有视频都有手动转录。Glove word embeddings(Pennington 等,2014 )用于从转录本中提取词向量。使用 P2FA 强制对齐模型(Yuan 和 Liberman,2008)在音素级别对齐单词和音频。 在此之后,视觉和听觉模式通过插值与单词对齐。 由于英语单词的发音持续时间通常较短,因此这种插值不会导致大量信息丢失。

视觉:从 30Hz 的完整视频中提取帧。使用 MTCNN 人脸检测算法(Zhang等, 2016)提取人脸的边界框。我们通过面部动作编码系统 (FACS) (Ekman等., 1980) 提取面部动作单元。 提取这些动作单元可以准确跟踪和理解面部表情 (Baltruˇsaitis等,2016)。 我们还使用 Emotient FACET (iMotions, 2017) 从静态人脸中提取了一组六种基本情绪。 MultiComp OpenFace (Baltruˇsaitis等, 2016) 用于提取 68 个面部标志、20 个面部形状参数、面部 HoG 特征、头部姿势、头部方向和眼睛注视 (Baltruˇsaitis et al., 2016) 的集合。最后,我们从常用的面部识别模型中提取人脸嵌入,例如 DeepFace(Taigman 等人,2014)、FaceNet(Schroff 等人,2015)和 SphereFace(Liu 等人,2017)。

声学:我们使用 COVAREP 软件(Degottex 等人,2014 年)提取声学特征,包括 12 个 Mel 频率倒谱系数、音高、浊音/清音分段特征(Drugman 和 Alwan,2011 年)、声门源参数(Drugman 等人,2014 年)。 , 2012; Alku et al., 1997, 2002),峰值斜率参数和最大色散商数 (Kane and Gobl, 2013)。 所有提取的特征都与情绪和语气有关。

4 多模态融合研究

从语言学的角度来看,理解多模态语言中语言、视觉和音频模态之间的相互作用是一个基础研究问题。 虽然以前的工作在准确性指标方面取得了成功,但他们并没有就融合是如何进行的,以及融合过程中融合过程中融合的方式和交互方式产生了新的见解。具体来说,要了解融合过程,必须首先了解n-modal dynamics (Zadeh 等,2017)。 n-modal dynamics 表明存在不同的模态组合,并且必须捕获所有这些组合才能更好地理解多模态语言。在本文中,我们将构建 n-modal dynamics 定义为一个分层过程,并提出了一种称为动态融合图 (DFG) 的新融合模型。 DFG 很容易通过所谓的图连接中的功效来解释。为了在多模式语言框架中利用这种新的融合模型,我们通过用我们的 DFG 替换 MFN 中的原始融合组件来构建记忆融合网络 (MFN)。我们将此结果模型称为图记忆融合网络 (Graph-MFN)。 一旦模型经过端到端的训练,我们将分析 DFG 中的功效,以研究为多模态语言中的模态学习的融合机制。 除了是一种可解释的融合机制,Graph-MFN 在 CMU-MOSEI 上也优于先前提出的用于情感分析和情感识别的最先进模型。

4.1 动态融合图

在本节中,我们将讨论所提出的动态融合图 (DFG) 神经模型的内部结构(图 3。DFG 具有以下特性:
1)它显式地对 n 模态交互进行建模;
2)使用有效数量的参数进行建模 (与之前的方法如 Tensor Fusion (Zadeh等, 2017))
3) 可以动态改变其结构并根据推理过程中每个 n 模态动力学的重要性选择合适的融合图。
我们假设这组模态为

    M
   
   
    =
   
   
    
     {
    
    
     (
    
    
     l
    
    
     )
    
    
     a
    
    
     n
    
    
     g
    
    
     u
    
    
     a
    
    
     g
    
    
     e
    
    
     ;
    
    
     (
    
    
     v
    
    
     )
    
    
     i
    
    
     s
    
    
     i
    
    
     o
    
    
     n
    
    
     ;
    
    
     (
    
    
     a
    
    
     )
    
    
     u
    
    
     d
    
    
     i
    
    
     o
    
    
     }
    
   
  
  
   M = {\{(l)anguage; (v)ision; (a)udio\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.10903em;">M</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mclose">)</span><span class="mord mathdefault">a</span><span class="mord mathdefault">n</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">u</span><span class="mord mathdefault">a</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">e</span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">)</span><span class="mord mathdefault">i</span><span class="mord mathdefault">s</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mord mathdefault">n</span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mopen">(</span><span class="mord mathdefault">a</span><span class="mclose">)</span><span class="mord mathdefault">u</span><span class="mord mathdefault">d</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mclose">}</span></span></span></span></span></span>。单峰动力学表示为<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     {
    
    
     l
    
    
     }
    
   
   
    ;
   
   
    
     {
    
    
     v
    
    
     }
    
   
   
    ;
   
   
    
     {
    
    
     a
    
    
     }
    
   
  
  
   {\{l\}};{\{v\}}; {\{a\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mclose">}</span></span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">}</span></span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault">a</span><span class="mclose">}</span></span></span></span></span></span>,双峰动力学为<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     {
    
    
     l
    
    
     ,
    
    
     v
    
    
     }
    
   
   
    ;
   
   
    
     {
    
    
     v
    
    
     ,
    
    
     a
    
    
     }
    
   
   
    ;
   
   
    
     {
    
    
     l
    
    
     ,
    
    
     a
    
    
     }
    
   
  
  
   {\{l,v\}}; {\{v,a\}}; {\{l,a\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">}</span></span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">}</span></span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">}</span></span></span></span></span></span>和三峰动力学为<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    {
   
   
    l
   
   
    ,
   
   
    v
   
   
    ,
   
   
    a
   
   
    }
   
  
  
   {\{l,v,a\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">}</span></span></span></span></span></span>。这些动态以潜在表示的形式出现,每个都被视为图 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    G
   
   
    =
   
   
    (
   
   
    V
   
   
    ;
   
   
    E
   
   
    )
   
  
  
   G = (V;E)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault">G</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.22222em;">V</span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.05764em;">E</span><span class="mclose">)</span></span></span></span></span> 内的顶点,其中 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    V
   
  
  
   V
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.22222em;">V</span></span></span></span></span> 是顶点集,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    E
   
  
  
   E
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.05764em;">E</span></span></span></span></span> 是边集。仅当<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     i
    
   
   
    ⊂
   
   
    
     v
    
    
     j
    
   
  
  
   v_i\subset v_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.6891em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">i</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">⊂</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 时才在两个顶点 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     i
    
   
  
  
   v_i
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">i</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     j
    
   
  
  
   v_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 之间建立定向神经连接。例如,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     {
    
    
     l
    
    
     }
    
   
   
    ⊂
   
   
    
     {
    
    
     l
    
    
     ,
    
    
     v
    
    
     }
    
   
  
  
   {\{l\}}\subset{\{l ,v\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mclose">}</span></span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">⊂</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">}</span></span></span></span></span></span> 导致<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    &lt;
   
   
    l
   
   
    a
   
   
    n
   
   
    g
   
   
    u
   
   
    a
   
   
    g
   
   
    e
   
   
    &gt;
   
  
  
   &lt;language&gt;
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.5782em; vertical-align: -0.0391em;"></span><span class="mrel">&lt;</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mord mathdefault">a</span><span class="mord mathdefault">n</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">u</span><span class="mord mathdefault">a</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">e</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">&gt;</span></span></span></span></span>和<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    &lt;
   
   
    l
   
   
    a
   
   
    n
   
   
    g
   
   
    u
   
   
    a
   
   
    g
   
   
    e
   
   
    ,
   
   
    c
   
   
    v
   
   
    i
   
   
    s
   
   
    i
   
   
    o
   
   
    n
   
   
    &gt;
   
  
  
   &lt;language,cvision&gt;
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.5782em; vertical-align: -0.0391em;"></span><span class="mrel">&lt;</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mord mathdefault">a</span><span class="mord mathdefault">n</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">u</span><span class="mord mathdefault">a</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">e</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">c</span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mord mathdefault">i</span><span class="mord mathdefault">s</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mord mathdefault">n</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">&gt;</span></span></span></span></span>之间的连接。该连接表示为边<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     e
    
    
     
      i
     
     
      j
     
    
   
  
  
   e_{ij}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault">e</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">i</span><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     j
    
   
  
  
   D_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.969438em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 将满足上述 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     j
    
   
  
  
   v_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 神经连接公式的所有 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     i
    
   
  
  
   v_i
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">i</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 作为输入。<br> 我们为表示为 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     α
    
    
     
      i
     
     
      j
     
    
   
  
  
   \alpha_{ij}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.0037em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">i</span><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的每条边<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     e
    
    
     
      i
     
     
      j
     
    
   
  
  
   e_{ij}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault">e</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">i</span><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span>定义了一个功效。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     i
    
   
  
  
   v_i
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">i</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 在用作 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     j
    
   
  
  
   D_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.969438em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的输入之前乘以<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     α
    
    
     
      i
     
     
      j
     
    
   
  
  
   \alpha_{ij}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.0037em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mathdefault mtight">i</span><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span>。 每个<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    α
   
  
  
   \alpha
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span></span></span></span></span>都是一个 sigmoid 神经元激活概率,表示 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     i
    
   
  
  
   v_i
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">i</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     v
    
    
     j
    
   
  
  
   v_j
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.716668em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.311664em;"><span class="" style="top: -2.55em; margin-left: -0.03588em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 之间的连接强弱。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    α
   
   
    s
   
  
  
   \alpha s
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span><span class="mord mathdefault">s</span></span></span></span></span>是 DFG 中可解释性的主要来源。使用深度神经网络 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     α
    
   
  
  
   D_\alpha
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.0037em;">α</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 推断所有 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    α
   
   
    s
   
  
  
   \alpha s
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span><span class="mord mathdefault">s</span></span></span></span></span> 的向量,该网络将 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    V
   
   
    (
   
   
    l
   
   
    、
   
   
    v
   
   
    和
   
   
    a
   
   
    )
   
  
  
   V(l、v 和a)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.22222em;">V</span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mord cjk_fallback">、</span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mord cjk_fallback">和</span><span class="mord mathdefault">a</span><span class="mclose">)</span></span></span></span></span>中的单例顶点作为输入。我们让监督训练目标来学习 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     α
    
   
  
  
   D_\alpha
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.0037em;">α</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的参数并充分利用功效,从而动态控制图的结构。出于此目的选择单例顶点,因为它们没有传入边,因此没有与这些边相关联的功效(不需要功效来推断单例顶点)。相同的单例顶点<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    l
   
  
  
   l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span></span></span></span></span>、<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
  
  
   v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    a
   
  
  
   a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">a</span></span></span></span></span> 是 DFG 的输入。 在下一节中,我们将讨论如何将这些输入提供给 DFG。 所有顶点都通过由它们各自的功效缩放的边连接到网络的输出顶点 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     Γ
    
    
     t
    
   
  
  
   \Gamma_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord">Γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>。顶点、边和各自功效的整体结构如图3所示。总共有8个顶点(计算输出顶点)、19个边和随后的19个功效。<br> <img src="https://img-blog.csdnimg.cn/060a1e4551854290b4379641c7d75430.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA5pys5Y2h,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center" alt="Figure3">图 3:三种模态的动态融合图 (DFG) 结构; 包括<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    {
   
   
    (
   
   
    l
   
   
    )
   
   
    a
   
   
    n
   
   
    g
   
   
    u
   
   
    a
   
   
    g
   
   
    e
   
   
    ;
   
   
    (
   
   
    v
   
   
    )
   
   
    i
   
   
    s
   
   
    i
   
   
    o
   
   
    n
   
   
    ;
   
   
    (
   
   
    a
   
   
    )
   
   
    u
   
   
    d
   
   
    i
   
   
    o
   
   
    }
   
  
  
   {\{(l)anguage; (v)ision; (a)udio\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mclose">)</span><span class="mord mathdefault">a</span><span class="mord mathdefault">n</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">u</span><span class="mord mathdefault">a</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">e</span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">)</span><span class="mord mathdefault">i</span><span class="mord mathdefault">s</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mord mathdefault">n</span><span class="mpunct">;</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mopen">(</span><span class="mord mathdefault">a</span><span class="mclose">)</span><span class="mord mathdefault">u</span><span class="mord mathdefault">d</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mclose">}</span></span></span></span></span></span>。DFG 中的虚线显示了由功效 (<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    α
   
  
  
   \alpha
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.0037em;">α</span></span></span></span></span>) 控制的顶点之间的动态连接。</p> 

4.2 Graph-MFN

为了测试 DFG 的性能,我们使用了类似于内存融合网络 (MFN) 的循环架构。MFN 是一个循环神经模型,具有三个主要组成部分

  1. LSTM 系统:一组并行 LSTM,每个 LSTM 建模一个模态。
    2)Delta-memory Attention Network是执行多模态融合的组件,通过分配系数来突出跨模态动态。
  2. Multiview Gated Memory 是一个存储多模态融合输出的组件。
    我们用 DFG 替换了 Delta-memory 注意力网络,并将修改后的模型称为 Graph Memory Fusion Network (Graph-MFN)。图 4 显示了 Graph-MFN 的整体架构。
    Figure4
    图 4:图内存融合网络 (Graph-MFN) 框架概述。 Graph-MFN 用动态融合图 (DFG) 替换了 MFN 中的融合块。有关变量和内存公式的描述,请参阅原始内存融合网络论文(Zadeh 等,2018a)。

与 MFN 类似,Graph-MFN 使用 LSTM 系统对单个模态进行建模。

     c
    
    
     l
    
   
  
  
   c_l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">c</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.336108em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.01968em;">l</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>、<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     c
    
    
     v
    
   
  
  
   c_v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">c</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.03588em;">v</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     c
    
    
     a
    
   
  
  
   c_a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">c</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">a</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 分别代表 LSTM 对语言、视觉和声学模态的记忆。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     m
    
   
   
    ,
   
   
    m
   
   
    ∈
   
   
    
     {
    
    
     l
    
    
     ,
    
    
     v
    
    
     ,
    
    
     a
    
    
     }
    
   
  
  
   D_m,m \in {\{l,v,a\}}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">m</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span><span class="mord cjk_fallback">,</span><span class="mord mathdefault">m</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">∈</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord"><span class="mopen">{<!-- --></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">}</span></span></span></span></span></span> 是一个完全连接的深度神经网络,它在两个连续的时间戳中接受 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     h
    
    
     
      [
     
     
      t
     
     
      −
     
     
      1
     
     
      ,
     
     
      t
     
     
      ]
     
    
    
     m
    
   
  
  
   h_{[t−1,t]}^m
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1.19144em; vertical-align: -0.497em;"></span><span class="mord"><span class="mord mathdefault">h</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.664392em;"><span class="" style="top: -2.378em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mopen mtight">[</span><span class="mord mathdefault mtight">t</span><span class="mord mtight">−</span><span class="mord mtight">1</span><span class="mpunct mtight">,</span><span class="mord mathdefault mtight">t</span><span class="mclose mtight">]</span></span></span></span><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">m</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.497em;"><span class=""></span></span></span></span></span></span></span></span></span></span> LSTM 表示,这允许网络跟踪内存维度随时间的变化。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     l
    
   
  
  
   D_l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.336108em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.01968em;">l</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>、<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     v
    
   
  
  
   D_v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.03588em;">v</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     a
    
   
  
  
   D_a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">a</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的输出是 DFG 的单例顶点。DFG 对跨模态交互进行建模,并在其输出顶点 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     Γ
    
    
     t
    
   
  
  
   \Gamma_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord">Γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 中对跨模态表示进行编码,以便存储在多视图门控内存 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     u
    
    
     t
    
   
  
  
   u_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">u</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 中。Multi-view Gated Memory 使用网络 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     u
    
   
  
  
   D_u
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">u</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 运行,该网络将 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     Γ
    
    
     t
    
   
  
  
   \Gamma_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord">Γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 转换为建议的内存更新 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     
      u
     
     
      ^
     
    
    
     t
    
   
  
  
   \hat{u}_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.84444em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord accent"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height: 0.69444em;"><span class="" style="top: -3em;"><span class="pstrut" style="height: 3em;"></span><span class="mord"><span class="mord mathdefault">u</span></span></span><span class="" style="top: -3em;"><span class="pstrut" style="height: 3em;"></span><span class="accent-body" style="left: -0.22222em;">^</span></span></span></span></span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span><span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     γ
    
    
     1
    
   
  
  
   \gamma_1
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.625em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.05556em;">γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.301108em;"><span class="" style="top: -2.55em; margin-left: -0.05556em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">1</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     γ
    
    
     2
    
   
  
  
   \gamma_2
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.625em; vertical-align: -0.19444em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.05556em;">γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.301108em;"><span class="" style="top: -2.55em; margin-left: -0.05556em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">2</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 分别是多视图门控存储器的保留和更新门,并使用网络 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     
      γ
     
     
      1
     
    
   
  
  
   D_ {\gamma_1}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.969438em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05556em;">γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.317314em;"><span class="" style="top: -2.357em; margin-left: -0.05556em; margin-right: 0.0714286em;"><span class="pstrut" style="height: 2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight">1</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.143em;"><span class=""></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     
      γ
     
     
      2
     
    
   
  
  
   D_{\gamma_2}
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.969438em; vertical-align: -0.286108em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight"><span class="mord mathdefault mtight" style="margin-right: 0.05556em;">γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.317314em;"><span class="" style="top: -2.357em; margin-left: -0.05556em; margin-right: 0.0714286em;"><span class="pstrut" style="height: 2.5em;"></span><span class="sizing reset-size3 size1 mtight"><span class="mord mtight">2</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.143em;"><span class=""></span></span></span></span></span></span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.286108em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 学习。最后,网络 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     D
    
    
     z
    
   
  
  
   D_z
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.02778em;">D</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: -0.02778em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.04398em;">z</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 将<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     Γ
    
    
     t
    
   
  
  
   \Gamma_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord">Γ</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>转换为多模态表示 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     z
    
    
     t
    
   
  
  
   z_t
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault" style="margin-right: 0.04398em;">z</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.280556em;"><span class="" style="top: -2.55em; margin-left: -0.04398em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">t</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 以更新 LSTM 系统。Graph-MFN 在所有实验中的输出是每个 LSTM <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     h
    
    
     T
    
    
     m
    
   
  
  
   h_T^m
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.969771em; vertical-align: -0.275331em;"></span><span class="mord"><span class="mord mathdefault">h</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.664392em;"><span class="" style="top: -2.42467em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.13889em;">T</span></span></span><span class="" style="top: -3.063em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">m</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.275331em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的输出以及多视图门控存储器在时间 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    T
   
  
  
   T
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.13889em;">T</span></span></span></span></span>(最后一个循环时间步长)<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    
     u
    
    
     T
    
   
  
  
   u_T
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.58056em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">u</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.328331em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight" style="margin-right: 0.13889em;">T</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span> 的内容。 这个输出随后连接到分类或回归层以进行最终预测(用于情感和情感识别)。</p> 

5 实验与讨论

在我们的实验中,我们试图通过研究 DFG 随时间变化的功效来评估多模态融合过程中模态的相互作用。
Table3
表 3:对 MOSEI 数据集进行情感分析和情感识别的结果(报告结果截至 2018 年 5 月 11 日。请查看 CMU Multimodal Data SDK github,了解 CMU-MOSEI 和其他数据集的最新技术和新功能 )。 SOTA1 和 SOTA2 分别指的是之前最好的和第二好的最先进的模型(来自第 2 节)。 与基线相比,Graph-MFN 在情感分析和情感识别方面取得了优异的表现。对于所有指标,较高的值表示更好的性能,但 MAE 除外,其较低的值表示更好的性能。

表 3 显示了 CMU-MOSEI 的结果。准确性报告为

     A
    
    
     x
    
   
  
  
   A_x
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.83333em; vertical-align: -0.15em;"></span><span class="mord"><span class="mord mathdefault">A</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height: 0.151392em;"><span class="" style="top: -2.55em; margin-left: 0em; margin-right: 0.05em;"><span class="pstrut" style="height: 2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathdefault mtight">x</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height: 0.15em;"><span class=""></span></span></span></span></span></span></span></span></span></span>,其中 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    x
   
  
  
   x
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">x</span></span></span></span></span> 是情感类别的数量以及 F1 度量。对于回归,我们报告 MAE 和相关性 (<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    r
   
  
  
   r
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.02778em;">r</span></span></span></span></span>)。 对于由于各种情绪之间的自然不平衡而导致的情绪识别,我们使用加权准确率(Tong 等,2017)和 F1 度量。Graph-MFN 在情感分析和情感识别方面表现出优异的性能。因此,DFG 是一种有效且可解释的多模态融合模型。</p> 

为了更好地理解模态之间的内部融合机制,我们将图 5 中学习的 DFG 功效的行为可视化为各种情况(深红色表示高效,深蓝色表示低效)。

多模态融合具有易变的性质:第一个观察结果是 DFG 的结构随着时间的推移逐个发生变化。 因此,该模型似乎选择性地将某些动态置于其他动态之上。例如,在所有模式都提供信息的情况 (I) 中,所有效率似乎都很高,这意味着DFG 能够在单峰、双峰和三峰相互作用中找到有用的信息。然而,在情况 (II) 和 (III) 中,视觉模态要么没有信息,要么相互矛盾,

    v
   
   
    →
   
   
    l
   
  
  
   v\rightarrow l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span></span></span></span></span>, <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
  
  
   v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
   
    →
   
   
    l
   
  
  
   v\rightarrow l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span></span></span></span></span>,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    a
   
  
  
   a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">a</span></span></span></span></span>,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
  
  
   v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    l
   
  
  
   l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span></span></span></span></span>,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    a
   
   
    →
   
   
    l
   
  
  
   a\rightarrow l
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">a</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span></span></span></span></span>,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    a
   
  
  
   a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">a</span></span></span></span></span>,<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
  
  
   v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span></span></span></span></span>的功效。<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
  
  
   v
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span></span></span></span></span> 减少,因为没有有意义的交互涉及视觉模式。</p> 

融合中的先验:某些功效在不同情况下和时间上保持不变。这些是 DFG 学习的人类多模态语言的先验。例如,模型似乎总是在

    (
   
   
    l
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
   
    )
   
  
  
   (l\rightarrow l,a)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">)</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    a
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
   
    )
   
  
  
   (a\rightarrow l,a)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault">a</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">)</span></span></span></span></span> 中优先考虑语言和音频之间的融合。随后,DFG 对单方面依赖于语言或音频的功效给出了较低的值:<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    l
   
   
    →
   
   
    τ
   
   
    )
   
  
  
   (l\rightarrow \tau)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.1132em;">τ</span><span class="mclose">)</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    a
   
   
    →
   
   
    τ
   
   
    )
   
  
  
   (a\rightarrow \tau)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault">a</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.1132em;">τ</span><span class="mclose">)</span></span></span></span></span> 功效似乎一直很低。 另一方面,视觉模式似乎具有部分孤立的行为。 在存在信息性视觉信息的情况下,该模型提高了 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    v
   
   
    →
   
   
    τ
   
   
    )
   
  
  
   (v\rightarrow \tau)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.1132em;">τ</span><span class="mclose">)</span></span></span></span></span> 的功效,尽管其他视觉功效的值也增加了。</p> 

多模态融合的踪迹:我们追溯每种模态在融合过程中经历的主要路径:1)

    l
   
   
    a
   
   
    n
   
   
    g
   
   
    u
   
   
    a
   
   
    g
   
   
    e
   
  
  
   language
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mord mathdefault">a</span><span class="mord mathdefault">n</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">u</span><span class="mord mathdefault">a</span><span class="mord mathdefault" style="margin-right: 0.03588em;">g</span><span class="mord mathdefault">e</span></span></span></span></span>倾向于首先通过 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    l
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
   
    )
   
  
  
   (l\rightarrow l,a)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mclose">)</span></span></span></span></span> 与音频融合,语言和声学模态共同参与更高级别的融合,例如<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    (
   
   
    l
   
   
    ,
   
   
    a
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
   
    ,
   
   
    v
   
   
    )
   
  
  
   (l,a\rightarrow l,a,v)
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mopen">(</span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 1em; vertical-align: -0.25em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mclose">)</span></span></span></span></span>。直观地说,这与语言和音频通过单词语调之间的密切联系是一致的。2)<span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    v
   
   
    i
   
   
    s
   
   
    i
   
   
    o
   
   
    n
   
  
  
   vision
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.65952em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.03588em;">v</span><span class="mord mathdefault">i</span><span class="mord mathdefault">s</span><span class="mord mathdefault">i</span><span class="mord mathdefault">o</span><span class="mord mathdefault">n</span></span></span></span></span>模式似乎只有在包含有意义的信息时才会进行融合。在情况(I)和(IV)中,所有涉及视觉模态的路径都相对活跃,而在情况(II)和(III)中涉及视觉模式的路径的效率低下。3)声学情态大多与语言情态融合在一起。然而,与语言不同的是,如果两种模态都有意义,例如在情况 (I) 中,声学模态似乎也与视觉模态融合。</p> 

一个有趣的观察结果是,在几乎所有情况下,到终端

    Γ
   
  
  
   \Gamma
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord">Γ</span></span></span></span></span> 的单峰连接的效率都很低,这意味着 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    Γ
   
  
  
   \Gamma
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.68333em; vertical-align: 0em;"></span><span class="mord">Γ</span></span></span></span></span> 更喜欢不只依赖一种模态。 此外,DFG 总是更喜欢在语言和音频之间进行融合,因为在大多数情况下都是 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    l
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
  
  
   l\rightarrow l, a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.69444em; vertical-align: 0em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span></span></span></span></span> 和 <span class="katex--inline"><span class="katex"><span class="katex-mathml">

 
  
   
    a
   
   
    →
   
   
    l
   
   
    ,
   
   
    a
   
  
  
   a\rightarrow l,a
  
 
</span><span class="katex-html"><span class="base"><span class="strut" style="height: 0.43056em; vertical-align: 0em;"></span><span class="mord mathdefault">a</span><span class="mspace" style="margin-right: 0.277778em;"></span><span class="mrel">→</span><span class="mspace" style="margin-right: 0.277778em;"></span></span><span class="base"><span class="strut" style="height: 0.88888em; vertical-align: -0.19444em;"></span><span class="mord mathdefault" style="margin-right: 0.01968em;">l</span><span class="mpunct">,</span><span class="mspace" style="margin-right: 0.166667em;"></span><span class="mord mathdefault">a</span></span></span></span></span> 功效高;直观地,在大多数自然场景中,语言和声学模态高度一致。这两种情况都显示出不变的行为,我们认为 DFG 已经习得了人类交流信号的自然先验。</p> 

通过这些观察,我们相信 DFG 已经成功地学会了如何管理其内部结构来模拟人类交流。

六,结论

在本文中,我们提出了最大的多模态情感分析和情感识别数据集,称为 CMU 多模态观点情感和情感强度 (CMU-MOSEI)。 CMUMOSEI 包含来自 1000 多名在线演讲者和 250 个不同主题的 23453 个带注释的句子。该数据集扩展了 NLP 中人类多模态语言研究的视野。本文介绍了一项这样的研究,我们分析了情感分析和情感识别中多模态融合的结构。 这是使用一种称为动态融合图 (DFG) 的新型可解释融合机制完成。 在我们的研究中,我们使用 DFG 的内置功效调查了模式在相互交互中的行为。 除了融合分析之外,DFG 在记忆融合网络管道中进行了训练,并在情感分析和情感识别方面表现出优异的性能。

致谢

本文基于美国国家科学基金会(奖号 #1833355)和 Oculus VR 部分支持的工作。 本文中表达的任何意见、发现、结论或建议均为作者的观点,不一定反映美国国家科学基金会或 Oculus VR 的观点,不应推断出官方认可。

文章知识点与官方知识档案匹配,可进一步学习相关知识

显示推荐内容

  • 6
    点赞
  • 45
    收藏
  • 打赏
    打赏
  •         <a class="tool-item-href" href="#commentBox" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.7009&quot;}">
                <img class="isdefault" src="https://csdnimg.cn/release/blogv2/dist/pc/img/newComment2021Black.png" alt="">
                <span class="count">
                    9
                </span>
            </a>
            <div class="tool-hover-tip"><span class="text space">评论</span></div>
            </li>
            <li class="tool-item tool-item-bar">
            </li>
            <li class="tool-item tool-item-size tool-active tool-QRcode" data-type="article" id="tool-share">
                <a class="tool-item-href" href="javascript:;" data-report-click="{&quot;mod&quot;:&quot;1582594662_002&quot;,&quot;spm&quot;:&quot;1001.2101.3001.4129&quot;,&quot;ab&quot;:&quot;new&quot;}">
                    <img class="isdefault" src="https://csdnimg.cn/release/blogv2/dist/pc/img/newShareBlack.png" alt="">
                </a>
                <div class="QRcode" id="tool-QRcode">
                    <div class="share-bg-icon icon1 icon4" id="shareBgIcon"></div>
                    <div class="share-bg-box">
                        <div class="share-content">
                            <img class="share-avatar" src="https://profile.csdnimg.cn/9/2/B/3_m0_46979525" alt="">
                            <div class="share-tit">CMU-MOSEI数据集解读</div>
                            <div class="share-dec">Multimodal Language Analysis in the Wild:CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph作者:Amir Zadeh(Language Technologies Institute,CMU, USA)Paul Pu Liang(Machine Learning Department, CMU, USA)Jonathan Vanbriesen(Language Technologies Inst</div>
                            <a id="copyPosterUrl" class="url" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.7493&quot;}">复制链接</a>
                        </div>
                        <div class="share-code">
                            <div class="share-code-box" id="shareCode"><canvas width="65" height="65"></canvas><img style="display: none;"></div>
                            <div class="share-code-text">扫一扫</div>
                        </div>
                        
                    </div>
                    <div class="share-code-type"><p class="hot" data-type="hot"><span>热门</span></p><p class="vip" data-type="vip"><span>VIP</span></p></div>
                </div>
            </li>
        </ul>
        </div>
        <div class="toolbox-right">
                <div class="tool-directory">
                    <a class="bt-columnlist-show" data-id="11396824" data-free="true" data-subscribe="false" data-title="论文翻译" data-img="https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224" data-url="https://blog.csdn.net/m0_46979525/category_11396824.html" data-sum="6" data-people="2" data-price="0" data-oldprice="0" data-join="false" data-studyvip="false" data-studysubscribe="false" data-report-click="{&quot;spm&quot;:&quot;1001.2101.3001.6334&quot;,&quot;extend1&quot;:&quot;专栏目录&quot;}">专栏目录</a>
                </div>
        </div>
    </div>  
    
        <script src="https://csdnimg.cn/release/blogv2/dist/components/js/pc_wap_commontools-ad67eb7a7a.min.js" type="text/javascript" async=""></script>

COPY BUTTON
评论 9 您还未登录,请先 登录 后发表或查看评论
多模态分析 数据集(Multimodal Dataset)整理_MT_Joy的博客_多...
2-25
1.《Multimodal Language Analysis in the Wild_ CMU- MOSEI Dataset and Interpretable Dynamic Fusion Graph》--【多模态情感和情绪分析】2018年。论文中描述的 CMU- MOSEI 数据集规模最大的三模态 数据集,且具有情感和情绪两个标签。但是这里...
...SIMS:中文多模态情感分析 数据集与细粒度的模态注释_Yang SiCheng...
2-21
为了满足多模态情感分析和情感识别的需求,研究者们提出了多种多模态 数据集,包括IEMOCAP(Busso等,2008)、YouTube(Morency等,2011)、MOUD(Perez-Rosas等,2013)、ICT-MMMO(Wollmer等,2013)、MOSI(Zadeh等,2016)、 CMU- MOSEI(Zadeh等,201...
mscoco 数据集_多模态情感分析 数据集整理
这里整理一下平时所用的多模态情感 数据集以备之用,后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。作者:骑着白马的王子地址:https://www.zhihu.com/people/pi-pi-57-6701 双模态(一般是文本、图像和语音的两两组合)1.《Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Mo...
【数据】 CMU大佬分享三类优质 数据集:综合、CV和NLP
05-10 1599
关注:决策智能与机器学习,深耕AI脱水干货来源 | 知乎作者 | 攸宁编辑 |九三山人编者按:数据是AI实施的必要条件,没有数据的AI就是空想,而AI圈的数据很多都可以在网上免费获...
史上最大多模态图文 数据集发布!_zenRRan的博客
2-19
数据集下载链接: https://semaine-db.eu/DailyDialog 除以上三个最具代表性的多模态情感分析 数据集之外 CMU 制作的 CMU- MOSEICMU—MOSI、上海交通大学标注的SEED等 数据集结合了视频、文本、语音等模态,也是多模态情感分析研究任务较为通...
A Transformer-based joint-encoding for Emotion Recognition and Sen...
2-13
A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis ATransformer-based joint-encoding for Emotion Recognition and Sentiment Analysis 基于Transformer的情感识别和情感分析联合编码...
MultiModalSA: CMU- MOSEI的多模态情感分析架构
04-13
多模态 CMU- MOSEI的多模态情感分析体系结构。 描述 该信息库包含四种多模式体系结构以及用于 CMU- MOSEI的情感分析的相关培训和测试功能。 在数据文件夹中,提供了转录和标签,以用于的标准培训,验证和测试语句。 可以通过以下链接下载BERT嵌入(文本模式),COVAREP功能(音频模式)和FACET功能(视频模式): BERT嵌入: ://drive.google.com/file/d/13y2xoO1YlDrJ4Be2X6kjtMzfRBs7tBRg/view?usp COVAREP: ://drive.google.com/file/d/1XpRN8xoEMKxubBHaNyEivgRbnVY2iazu/view usp sharing 脸部表情: ://drive.google.com/file/d/1BSjMfKm7FQM8n3HHG5Gn9-dTifULC
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis--文献笔记和翻译
一篇来自ACM MM2020年关于跨模态-bert模型的文献

ACMMM:ACM Multimedia Conference 领域顶级国际会议,全文的录取率极低,但Poster比较容易。多媒体技术,数据压缩.

文献下载地址:

CM-BERT | Proceedings of the 28th ACM International Conference on Multimedia

摘要

多模态情感分析是一个新兴的研究领域,旨在使机器识别,解释和表达情…


自然语言处理 数据集收集_日常敲代码间歇旅行的程序媛的博客_b...
2-8
http://multicomp.cs. cmu.edu/resources/ cmu- mosei-dataset/ 公共 自然语言处理(情感分析) CORNELL NEWSROOM 康奈尔新闻编辑室是一个大型的 数据集,用于培训和评估总结系统。它包含了作者和编辑在38个主要出版物的编辑室写的130万篇文章和...
多模态图文融合_浪里摸鱼的博客_图文融合 代码
1-23
1.《Multimodal Language Analysis in the Wild_ CMU- MOSEI Dataset and Interpretable Dynamic Fusion Graph》–【多模态情感和情绪分析】2018年。 论文中描述的 CMU- MOSEI 数据集规模最大的三模态 数据集,且具有情感和情绪两个标签。但是这...
CMU SDK-mosi多模态数据使用笔记(一)
03-07 4327
CMU多模态数据 1 下载数据 在数据及中包含了三个部分:highlevel,raw以及labels。highlevel是已经经过处理的特征(利用facet以及openSMILE等工具进行抽取),raw是原始特征。由于目前SDK并不能够自动检测是否已经下载过 数据集,如果当你有下载了然后要再从晚上downloading的话,会报错,因此需要加入一个try…except。代码片段如下 // An highlighted block from mmsdk import mmdatasdk as md DATAS.
用于情感识别的多模态端到端稀疏模型(Multimodal End-to-End Sparse Model for Emotion Recognition)
最新发布
现有的关于多模态情感计算任务 (例如情感识别) 的工作通常采用两阶段流水线,首先使用手工算法为每个单一模态提取特征表示,然后使用提取的特征进行端到端学习。(缺点)但是,提取的特征是固定的,不能在不同的目标任务上进一步微调,手动寻找特征提取算法不能很好地推广或扩展到不同的任务,这会导致性能次优。在本文中,我们开发了一个完全的端到端模型,该模型将两个阶段连接起来并共同优化它们。此外,我们重组了当前的 数据集,以实现完全的端到端培训。此外,为了减少端到端模型带来的计算开销,我们引入了用于特征提取的稀疏交叉模态注意机
UniMSE(2022)统一的多模态情感分析与情感识别(多层融合和对比学习...
2-18
1. 数据集(Dataset):4个 MSA和ERC的四个公开基准 数据集上进行了实验,包括多模态意见水平情绪强度 数据集 (MOSI),多模态观点、情绪与情绪强度( MOSEI),Multimodal EmotionLines 数据集(MELD) ,交互式情感二元动作捕捉数据库(IEMOCAP) ...
论文阅读笔记(一)
《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》论文笔记
数据集介绍: CMU Graphics Lab Motion Capture Database
目录 数据集介绍高频问题格式介绍:asf/amcAcclaim asf/amc解析ASF文件 数据集介绍 Carnegie Mellon University Motion Capture Database针对所有人来源,可以应用于商业产品中,但不能只是转换形式后直接售卖。它包含了丰富的动作捕捉数据,有多种格式可供下载,注意事项如下:

数据集中同一个人可能会出现在多个项目中,但每个项目都有其自己的校准骨架。
在选择动作使用时,请优先选择编号较大的项目。因为部分小编号项目包含了早期进行的一些动作捕捉,存在着


MOSEI协议(转载,待整理)
文章转载自(http://blog.sina.com.cn/s/blog_6472c4cc0100qxcd.html)

Cache一致性协议之MOESI

MOESI协议引入了一个O(Owned)状态,并在MESI协议的基础上,进行了重新定义了S状态,而E、M和I状态和MESI协议的对应状态相同。

 O位。O位为1表示在当前Cache 行中包含的数据是当前处理器系统最新


CMU-Oxford Sculpture 塑像雕像图像 数据集
07-02
CMU-Oxford Sculpture 是一个3D雕塑图像数据,包括 143000 张雕塑图像,来自 242位 艺术家的 2197个 雕塑作品。每张图像包括12个预定义的属性。
Machine Learning 和 Data Science 的最佳公共 数据集
外国自媒体mlmemoirs根据github、福布斯、 CMU官网等信息,整理了一个最佳机器学习公共 数据集的榜单
数据集特征提取_模式识别5-特征提取
一. 概述模式识别过程中,如果数据的维度较多,一方面可能是多个维度携带了同样的信息,一方面如果在 数据集较大的情况下也会增加计算的时长,特征提取的意义在于通过合并相同的信息,达到降低维度的目的。二,主成分分析(Principal Components Analysis)定义:对于一个N维的数据空间,我们希望可以找到一个M(M < N)维的正交向量,让N映射过去后,还可以尽量多的保持原有数据空间...
词向量转换回文本-以 CMU-MOSI为例
词向量转换回文本-以 CMU-MOSI为例 需求:在进行 深度学习的时候,我们使用glove将文本转换为词向量,使得神经网络可以更好的理解文本。但是,当我们得到一个已经经过预处理的 数据集,我们想要逆推导得到该向量的文本。 这个时候我们应该怎么办?我们这里以多模态情感分析 数据集 CMU-MOSI为例子进行介绍。 步骤

下载所使用的embedding版本。我这里是glove.840B.300d。由于可能需要翻墙,提供一下百度云盘,需要可以自取

链接:https://pan.baidu.com/s/1SFK93Rp


CMU 动作捕获 数据集
11-18 2080
网址 http://mocap.cs. cmu.edu/ 读取工具 http://mocap.cs. cmu.edu/tools.php Matlab 读取 AMC 文件 % Reads data from an AMC motion file into a Matlab matrix variable. % AMC file has to be in the AMC format used in the online CMU motion capture library. % number of dimen
开源 数据集汇总|景联文科技
人工智能的不断发展需要大量的数据做支撑。使用开源 数据集,可以对算法进行调优。景联文科技收集整理出了 计算机视觉领域的七个优秀开源 数据集供大家参考使用。
《Modulated Fusion using Transformer for Linguistic-Acoustic EmotionRecognition》论文翻译
《Modulated Fusion using Transformer for Linguistic-Acoustic EmotionRecognition》论文翻译
MOSI DATASET
12-28
Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos,做情感数据库这一块的朋友可以下载,资源是一个txt文档,里面有对应的MOSI 数据集的网盘链接和提取码,没有积分的朋友可以去某宝上买,很便宜哈哈。
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值