多模态数据融合系列文章大串讲

最新推荐文章于 2025-04-01 20:09:35 发布

xwz小王子

最新推荐文章于 2025-04-01 20:09:35 发布

阅读量1.2k

点赞数

分类专栏：多模态变形金刚文章标签：自然语言处理深度学习 rnn 多模态

原文链接：https://zhuanlan.zhihu.com/p/640745834

版权

多模态变形金刚专栏收录该内容

160 篇文章

订阅专栏

1.Mind’s eye: A recurrent visual representation for image caption generation（CVPR2015）

心灵之眼：用于图像标题生成的循环视觉表示
方法：递归神经网络
属于多模态表示：图片和文字，联合架构
Introduction(多模态的表示，这一块的历史可以在这篇文章的Introduction里面借鉴)
有几篇论文探讨了学习图像的联合特征空间及其描述，提出了很多投影方法，包括KCCA、深度神经网络和卷积神经网络。尽管这些方法可以将语义和视觉特征投影到一个公共的嵌入空间，但是没有办法反向得到新的句子或者视觉描述
针对之前存在的问题，由此引出这篇文章的方法：A bi-directional representation：capable of generating both novel descriptions from images and visual representations from descriptions
这两个任务的关键是一种新颖的表示形式，它可以动态捕捉已经描述过的场景的视觉方面。即，随着单词的生成或读取，视觉表示被更新以反映单词中包含的新信息。使用递归神经网络（RNN）完成此任务。
这篇文章已经提出了RNN存在的缺点

在经过几次重复迭代后，RNN在重新记忆概念方面存在弱点。例如，如果没有专门的门控单元 [15]，RNN 语言模型在学习长距离关系时经常会遇到困难。
Discussion
在这篇论文中没有探讨LSTM模型的使用，但肯定了将RNN替换为LSTM可能会更有趣
总之，该论文描述了第一个能够生成新颖的图像描述和视觉特征的双向模型。与许多以前使用rnn的方法不同，该篇论文的模型能够学习长期的交互
这是由于使用了循环的视觉记忆
2.LSTM
RNN的主要弱点是，善于进行短期记忆，不擅长进行长期记忆。
RNN的主要弱点是，善于进行短期记忆，不擅长进行长期记忆。由于激活函数(输出值取值范围[0,1])的存在，信息和残差在RNN神经元中传递时，会逐时间步损耗(简单来说就是绝对数值越来越小)。这个特点，削弱了RNN神经元保留距离当前时间步较远信息的能力，或者说，弱弱了RNN刻画长序列的能力。假设我们要从“贪污和浪费是极大的犯罪”抽取近义词，当模型从左到右、处理到”犯罪”的时候，“贪污”的语义已经被忘记，那么“犯罪-贪污”这对近义词就无法召回了。当然，实际发生的，是神经元“当前状态”，即语义向量里，所包含”贪污”越来越弱。看起来像是一个加权可以解决的问题。

LSTM(Long-Short Term Memory Neural Network,长短期记忆网络)是Transformer出现之前，理论和实践中表现最好的序列建模工具之一，催生了”BiLSTM+CRF”等应用非常广泛的神经网络模型结构
LSTM神经元在时间维度上向后传递了两份信息：cell state和hidden state
hidden state是cell state经过一个神经元和一道“输出门”后得到的，因此hidden state里包含的记忆，实际上是cell state衰减之后的内容
实际上hidden state里存储的，主要是“近期记忆”；cell state里存储的，主要是“远期记忆”
另一种解释：通过cell的计算公式可以看出该单元能够存储全部时间步的信息(ft为1)，有点highway的感觉，因此能保存长期记忆；而hidden是网络在cell的基础上进行特征选择的结果
3.StyleNet: Generating Attractive Visual Captions with Styles(2017，CVPR/198 Citations)
提出了一个名为StyleNet的新框架，以解决为图像和视频提供具有不同风格的图片字幕的任务。

本文是第一个研究用样式来生成有吸引力的图片字幕的问题，而不需要使用受监督的特殊图像-标题配对数据。
本文提出了一个端到端可学习的StyleNet框架，它可以自动从文本库中提取出样式因子。在标题生成中，样式因子可以被显式地合并以产生有吸引力的标题和所需的样式。
本文收集了一个新的Flickr图片字幕数据集。希望这个数据集可以帮助推进图像字幕的研究。
本文展示的StyleNet框架和Flickr的图片标题数据集也可以用来制作有吸引力的视频字幕。
长短期记忆 (LSTM)模型是一种特殊类型的RNN，它解决了常规RNN体系结构的消失和爆炸梯度问题。

第一层输入图片和真实的图片字幕进行学习
第二层和第三层输入浪漫风格和幽默风格的文本集
这三层都有一个factored LSTM结构用于学习，其中的参数是共享的除了特定的风格因子矩阵:SF, SR, SH
通过多任务学习
文献[50,52,32]中常用的策略是采用预训练的CNN模型作为编码器，将图像映射到固定维度的特征向量，然后使用LSTM模型作为解码器，根据图像向量生成字幕。

参考博文：“看图说话”(Image Caption)——如何生成多样化的图片描述？ - 知乎 (zhihu.com)

Factored LSTM：因式分解传统LSTM中的参数Wx为三个矩阵Ux, Sx, Vx。

变为

4.Translating Videos to Natural Language Using Deep Recurrent Neural Networks（2014，Computer science/690 Citations）
是上一篇论文的基础
对于机器来说，从视频像素中提取含义并生成听起来自然的语言是一个非常复杂的问题。已经为具有一小组已知操作和对象的狭窄域提出了解决方案，但是对于开放域视频的描述仍然具有挑战
在本文中使用单个深度神经网络将视频像素转换为自然语言。通过从辅助任务中转移知识来解决需要大量的监督训练数据问题。
使用长短期记忆网络（LSTM）递归神经网络建模
“It also allows us to ﬁrst pre-train the model on a large image and caption database, and transfer the knowledge to the video domain where the corpus size is smaller.”它还允许我们首先在大型图像和字幕数据库上对模型进行预训练，并将知识传输到语料库大小较小的视频域。
这里就是对上篇论文训练方式的补充解释

这些模型的工作原理是首先在图像上应用特征变换以生成固定维向量表示。然后，他们使用序列模型，特别是递归神经网络 (RNN)，将向量 “解码” 成句子 (即单词序列)。在这项工作中，我们应用了将视觉矢量 “翻译” 成英语句子的相同原理，并表明它可以很好地描述动态视频和静态图像。
RNN 可以学习映射预先知道输入和输出之间对齐的序列，但是尚不清楚它们是否可以应用于输入 (xi) 和输出 (zi) 的问题长短不一的。

训练流程：使用 LSTM 来“解码”代表视频的视觉特征向量以生成文本输出。
此过程的第一步是生成一个固定长度的视觉输入，以有效地总结短视频。为此，我们使用CNN，特别是公开可用的Caffe参考模型，这是AlexNet的次要变体。该网络在ImageNet数据集的1.2M图像ILSVRC-2012对象分类子集上进行了预训练，因此为识别对象提供了强大的初始化，从而加快了训练速度。
对视频中的帧进行采样（每 10 帧中有 1 帧）并提取 fc7 层的输出，并对帧执行平均池化，为每个视频生成一个 4096 维向量。
生成的视觉特征向量形成第一个 LSTM 层的输入。
将另一个 LSTM 层堆叠在顶部，第一层中 LSTM 的隐藏状态是第二层中 LSTM 单元的输入。句子中的一个单词构成输出 LSTM 单元的目标。在这项工作中，我们使用“one-hot”向量（即1-of-N编码，其中N是词汇大小）来表示单词。
注意：
该论文中特征提取器采用的是AlexNet,用FC7层（4096维向量）的输出作为编码器输出。
LSTM采用两层而不是一层，根据前人实验经验得出的结论。
视频中的每10帧采样1帧。
鉴于视频数据集过小，文中采用image caption训练好的模型做迁移学习。不过词库需要调整为两者的结合。

image-20221114163856829
5.Show, Attend and Tell: Neural Image Caption Generation with Visual Attention（2015, ICML/7898 Citations）
全文翻译链接参考：http://t.csdn.cn/TOZ0Z
这篇文章首先引入基于注意力的机制
这篇文章的主要贡献有如下几点：
我们在一个通用框架下介绍了俩个基于注意力机制的图片字幕生成器:1)可通过标准反向传播方法训练的“软”确定性注意力机制 2)一种“硬”随机注意力机制，可以通过最大化一个近似的变分下限来训练，或者等效地通过强化来训练。
我们通过可视化注意力关注在哪儿是什么来展示这个框架是如何获得洞察力和解释这个结果。
最后，我们在三个基准数据集上定量验证了注意力在字幕生成中的有用性，具有最先进的性能：Flickr8k、Flickr30k和 MS COCO 数据集。
这篇论文的模型

编码器：卷积功能
解码器：长短时记忆力网络

LSTM结构图，模仿的上面那篇论文的

权重αt可以由前一步系统隐变量ht-1经过若干全连接层获得，编码et用于存储前一步的信息。在这项工作中，我们使用一个深度输出层来计算给定LSTM状态、上下文向量和前一个单词的输出单词概率。fatt 是耦合计算区域 i 和时刻 t 这两个信息的打分函数，也就是为t时刻区分区域的相关度。

img
在文章后面讨论注意力模型fatt的两种替代机制：“硬”随机注意机制和“软”确定性注意机制
可以看出，整体仍是 Encoder-Decoder 结构，Encoder 部分没有做改变，在 Decoder 中引入了 attention。
6.Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)(2014, ICLR/1068 Citations)
以前，获取图片的句子描述的许多方法都将其视为一个检索任务，通过从句子数据库中检索它们来生成图像标题。因此缺乏生成新句子或描述包含物体和场景新组合的图像的能力。

2014年10月，百度研究院的Junhua Mao和Wei Xu等人在arXiv上发布论文《Explain Images with Multimodal Recurrent Neural Networks》，提出了multimodal Recurrent Neural Network（即m-RNN），创造性地将 CNN 和 RNN 结合起来，用于解决图像标注和图像语句检索等问题。

这篇文章提出了一个多模态递归神经网络（m-RNN)框架，该框架在三个任务中具有最先进的性能：句子生成、给定查询图像的句子检索和给定查询句子的图像检索。

该模型由一个深度RNN、一个深度CNN组成，这两个子网络在一个多模态层中相互作用。

整个m-RNN模型包含语言模型部分、视觉部分和多模态部分。语言模型部分学习字典中每个单词的密集特征嵌入，并将语义时间上下文存储在循环层中。视觉部分包含一个深度卷积神经网络(CNN) ，用于生成图像表示。多模态部分通过一层表示将语言模型和深层细胞神经网络连接在一起。这篇文章的 m-RNN 模型是使用对数似然代价函数学习的。误差可以反向传播到 m-RNN 模型的三个部分，同时更新模型参数。

这篇文章的第二章节相关部分工作与第一章节的介绍相对照：1、计算机视觉和自然语言的深度模型。2、图像-句子检索。3.为图像生成新颖的句子描述。这篇文章的逻辑很好。

这篇文章的工作与之前方法有两个主要区别：

这篇文章在m-RNN网络结构中加入了一个两层词嵌入系统，该系统比单层词嵌入更有效地学习词表示。
不使用循环层来存储视觉信息。

image-20221115170901281
简单循环神经网络 (RNN) 和我们的多模式循环神经网络 (m-RNN) 架构的图示。（a）简单的循环神经网络。 (b)这篇文章的 m-RNN 模型。

文章模型的输入是图像及其相应的句子描述。 w1, w2, …, wL 表示句子中的单词。为所有训练句子添加一个开始标志 wstart 和一个结束标志 wend。该模型在给定先前单词和图像的情况下估计下一个单词的概率分布。

它由五层（即两个词嵌入层、一个循环层、一个多模态层和一个 softmax 层）和每个时间帧中的深度 CNN 组成。每层上方的数字表示该层的维度。权重在所有时间范围内共享。（最好看彩色）

Mao, Junhua, Xu, Wei, Yang, Yi, Wang, Jiang, and Yuille, Alan L.Explain images with multimodal recurrent neural networks. NIPS DeepLearning Workshop, 2014.属于开创性文章
7.Show and Tell: A Neural Image Caption Generator(2015,CVPR/4787 Citations)
这篇文章提出了一个模型： NIC，这是一个端到端的神经网络系统，可以自动查看图像并用简单的英语生成合理的描述。

编码器-解码器结构

NIC基于卷积神经网络，该网络将图像编码为紧凑的表示形式，然后是生成相应句子的递归神经网络。

相对于m-RNN，NIC 具有如下不同：

用 LSTM 替代 RNN；

不同于 m-RNN 的 AlexNet，CNN 部分使用了效果更好的卷积网络；

CNN 提取到的图像特征只在开始时输入一次。

个人感觉这篇论文不太好读通

image-20221117160536699
模型介绍
图像编码器（encoder）是深度卷积神经网络。这种类型的网络被广泛用于图像任务，比如目标识别和检测最新技术。我们特别选择的网络是在ILSVRC-2012-CLS图像分类数据集上预先训练的Inception v3图像识别模型。
解码器（decoder）是一个长期的短期记忆（LSTM）网络。这种类型的网络通常用于序列建模任务，如语言建模和机器翻译。在Show and Tell模型中，LSTM网络被训练成一个以图像编码为条件的语言模型。
优点：非常灵活，不限输入和输出的模态，同时不限制两个网络的类型
缺点：当输入端是文本时，将变长序列表达为固定维数向量，存在信息损失，并且目前还不能处理太长的文本。
8.Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph(2018, ACL/353 Citations)
论文中描述的CMU-MOSEI数据集规模最大的三模态数据集之一，且具有情感和情绪两个标签，情感从negative到positive一共有7个类别，情绪包含愤怒、开心、悲伤、惊讶、害怕和厌恶6个类别，标签的数值在[-3~3]之间。数据集给出了原始数据，但是过于原始，即给出的是文本，音频和视频文件，图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。

9.A Comprehensive Survey of Deep Learning for Image Captioning(2018, ACM Comput. Surv./363 Citations)
作者通过归纳不同的方面，将目前主流的caption方法归类为以下几种：（在section 2里面详细说明）

基于模板的图像描述（Template -based ）
基于检索的图像描述（Retrieval-based）
新颖的图像描述生成（Novel imag caption generation），大多数基于深度学习的归类于此
其次作者又再次将基于深度学习的方法归类为以下几种：（在section 3中详细说明）

Visual space-basedMultimoda space-based
Supervised learning,
Other deep learning,
Dense captioning,
Whole scene-based,
Encoder-Decoder Architecture-based,
Compositional Architecture-based,
LSTM(Long Short-Term Memory) [54] language model-based,
Others language model-based,
Attention-Based,
Semantic concept-based,
Stylized captions

视觉空间vs.多模态空间
在基于视觉空间的方法中，图像特征和相应的字幕独立地传递给语言解码器。

相反，在多模态空间的情况下，从图像和相应的字幕文本中学习共享的多模态空间。然后将这种多模态表示传递给语言解码器。

image-20221122105920499
视觉部分使用深度卷积神经网络作为特征提取器来提取图像特征。语言编码器部分提取单词特征，并学习每个单词的密集特征嵌入。然后它将语义时间上下文转发到循环层。
多模态空间部分将图像特征映射到具有单词特征的公共空间中。
然后将生成的映射传递给语言解码器，该解码器通过解码映射生成描述。
该类别中的方法遵循以下步骤 :
(1) 使用深度神经网络和多模态神经语言模型在多模态空间中共同学习图像和文本。
(2) 语言生成部分使用来自步骤1的信息生成字幕。
监督学习vs.其他深度学习
在监督学习中，训练数据带标签。
基于监督学习的图像描述方法分为不同的类别：（i）编码器-解码器架构，（i i）组合架构，（i i i）基于注意力机制，（i v）基于语义概念，（v）风格化描述，（v i）基于对象的新的描述，以及（v i i）密集图像描述。
无监督学习不带标签。比如GAN和强化学习。

image-20221122193317835

此类别中的方法遵循以下步骤：

基于CNN和RNN的组合网络生成字幕
另一个基于CNN-RNN的网络评估字幕并向第一网络发送反馈以生成高质量字幕。
密度描述vs.整个场景的描述
在密度字幕中，会为场景的每个区域生成字幕。而其他方法则是为整个场景生成字幕。

image-20221122205342889

这一类的典型方法有以下步骤：

为给定图像的不同区域生成区域建议。
利用CNN获取基于区域的图像特征。
步骤2的输出被一个语言模型用于生成每个区域的标题。
编码器-解码器架构、合成架构、基于注意、基于语义概念、风格化描述、新颖的基于对象的图像描述以及其他基于深度学习网络的图像描述方法为整个场景生成单个或多个描述。

编码器-解码器体系结构vs.合成架构
在该网络中，从CNN的隐藏激活中提取全局图像特征，然后将其输入到LSTM中生成单词序列。

编码器-解码器体系结构

image-20221123193013182
此类典型方法具有以下一般步骤：

使用普通CNN获取场景类型，检测目标及其关系。
步骤1的输出由语言模型使用以将它们转换成产生图像字幕的单词、组合短语。
合成架构

image-20221125161556543
基于组合体系结构的方法，由几个独立的功能构建块组成：首先，使用CNN从图像中提取语义概念。然后使用语言模型来生成候选字幕集合。在生成最终字幕时，使用深度多模态相似性模型对这些候选字幕进行重新排序。

此类别的典型方法包含以下步骤：

使用CNN获得图像特征
从视觉特征获得视觉概念
通过使用步骤1和步骤2的信息的语言模型来生成多个字幕
使用深度多模态相似性模型对所生成的字幕进行重新排序，以选择高质量的图像字幕
其余方法
基于注意力的图像描述
基于注意力的方法与其他方法的主要区别在于它们可以集中注意力于图像的显著部分，同时生成相应的单词

image-20221206175206538
这类典型方法采用以下步骤：

通过CNN获得基于整个场景的图像信息。
语言生成阶段基于步骤1的输出生成单词或短语。
基于所生成的单词或短语，在语言生成模型的每个时间步长中聚焦给定图像的显著区域。
动态更新字幕直到语言生成模型的结束状态。
这篇文章写的很详细，但我觉得逻辑不是很好，特别是在总分结构的举例子里
基于语义概念的图像描述
基于语义概念的方法有选择地关注从图像中提取的一组语义概念建议，然后将这些概念组合成隐藏状态和循环神经网络的输出。

image-20221206174314808

该类别中的方法遵循以下步骤 :

基于CNN的编码器用于对图像特征和语义概念进行编码
将图像特征输入到语言生成模型的输入中
将语义概念添加到语言模型的不同隐藏状态中
语言生成部分产生带有语义概念的字幕
基于新对象的图像描述
尽管最近基于深度学习的图像覆盖方法已经取得了很好的效果，但它们在很大程度上依赖于成对的图像和句子描述数据集。这些类型的方法只能生成上下文中对象的描述。因此，这些方法需要大量的训练图像-句子对。新的基于对象的图像描述方法可以生成不在成对图像描述数据集中的新对象的描述。

image-20221206174253492
这类方法遵循以下一般步骤：

对未配对的图像数据和未配对的文本数据分别训练一个单独的词汇分类器和一个语言模型。
对成对的图像字幕数据进行了深度字幕模型的训练。
最后，将这两个模型组合在一起，进行联合训练，从而为新对象生成标题。
风格化描述
现有的图像字幕系统仅基于图像内容生成字幕，也可以称为事实描述。他们没有将文本的风格化部分与其他语言模式分开考虑。但是，风格化的字幕比仅对图像的平面描述更具表现力和吸引力。

image-20221206174223676
此类方法遵循以下一般步骤：

采用基于CNN的图像编码器获取图像信息
准备单独的文本语料库，从培训数据中提取各种风格化概念（例如：浪漫、幽默）
语言生成部分可以使用步骤1和步骤2的信息生成风格化和吸引人的描述
LSTM vs. Others
传统的RNN存在着消失和爆炸的梯度问题，不能充分处理长期的时间依赖性。

LSTM网络是一种RNN，除了标准单元外，还具有特殊单元。LSTM单元使用一个存储单元，它可以在内存中长期保存信息。近年来，基于LSTM的学习任务排序模型被广泛应用。另一个网络，选通循环单元（GRU）的结构与LSTM相似，但它不使用单独的内存单元，使用较少的选通来控制信息流。

然而，LSTMs忽略了句子的底层层次结构。由于通过内存单元的长期依赖性，它们还需要大量的存储。相比之下，CNN可以学习句子的内部层次结构，并且它们的处理速度比LSTM快。因此，最近，卷积结构在其他序列中用于对任务进行排序，例如，条件图像生成和机器翻译。

10.Multimodal Deep Learning(2011, International Conference on Machine Learning/2611 Citations)

image-20221129102733444
总体任务可以分为三个阶段:特征学习，监督训练和测试

三种学习设置：多模式融合，交叉模态学习和共享表示学习

在多模态融合设置中，来自所有模态的数据在所有阶段都可用; 这代表了在视听语音识别中的大多数先前工作中考虑的典型设置

在交叉模态学习中，来自多种模态的数据仅在特征学习期间可用; 在监督训练和测试阶段，仅提供来自单一模态的数据。对于这种设置，目的是在给定来自多个模态的未标记数据的情况下学习更好的单模态表示

共享的表示学习设置，该设置的独特之处在于为监督训练和测试提供了不同的方式。此设置使我们能够评估特征表示是否可以捕获不同模态之间的相关性

image-20221129102752679
最直接的特征学习方法之一是分别针对音频和视频训练RBM模型。我们使用这个模型作为基准来比较我们的多模态模型的结果，以及预训练深度网络(图 2a,b)。

为了训练多模式模型，一种直接方法是在连接的音频和视频数据上训练RBM (图2c)。虽然这种方法对音频和视频数据的分布进行联合建模，但它仅限于浅层模型。特别是，由于音频和视频数据之间的相关性是高度非线性的，因此 RBM 很难学习这些相关性并形成多模态表示。

因此，文章考虑在每个模态的预训练层贪婪的训练一个RBM，前面的第一层的隐藏值作为新层的训练数据。通过学习到的第一层特征来表示数据可以更容易的让模型来学习跨模态的高阶相关性。通俗的来说，第一层特征相当于音位和视位，第二层模型化了他们之间的关系。

image-20221129102809172
（a)中示出了“仅视频”输入模型，其中该模型在仅给定视频作为输入的情况下学习重建两种模态。对于“仅音频”输入设置，可以绘制类似的模型。

以去噪方式训练 (b) 双模态深度自动编码器，使用带有示例的增强数据集，这些示例要求网络在仅给定一个模态的情况下重建两种模态。两种模型都使用稀疏 RBM 进行了预训练（图 2d）。
但实际上，我们扩充时一个模态用全零作为输入，另一个模态用原始值作为输入，但是依旧要求模型重建这两个模态。因此，三分之一的训练数据只有视频作为输入，三分之一的训练数据只有语音作为输入，最后三分之一既有视频又有语音。
由于使用稀疏 RBM 进行初始化，我们发现即使在深度自动编码器训练之后，隐藏单元的预期激活也很低。因此，当其中一个输入模态设置为零时，第一层表示也接近于零。在这种情况下，我们实际上是在训练特定于模式的深度自动编码器网络（图 3a）。实际上，该方法学习了一个模型，该模型对不存在模态的输入具有鲁棒性。

第二章只有2.1，这篇文章好像不太规范
11.Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models(2015, IEEE International Conference on Computer Vision/969 Citations)
Flickr30k数据集已经成为基于句子的图像描述的标准基准。
12.Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding(2016, Conference on Empirical Methods in Natural Language Processing/1166 Citations)
分类：表示和融合

Visual Grounding 视觉定位

visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说，输入是图片（image）和对应的物体描述（sentence\caption\description），输出是描述物体的box。听上去和目标检测非常类似，区别在于输入多了语言信息，在对物体进行定位时，要先对语言模态的输入进行理解，并且和视觉模态的信息进行融合，最后利用得到的特征表示进行定位预测

Visual grounding系列–领域初探 - 森林海的文章 - 知乎 https://zhuanlan.zhihu.com/p/388504127

特征融合即输入两个模态的特征向量，输出融合后的向量。最常用的方法是拼接（concatenation）、按位乘（element-wise product）、按位加（element-wise sum）。MCB的作者认为这些简单的操作效果不如外积（outer product），不足以建模两个模态间的复杂关系。但外积计算存在复杂度过高的问题。由于外积由于其高维度而通常是不可行的，因此作者提出多模态紧凑双线性池（MCB），在VQA和视觉定位任务中都取得了先进的结果。

递归神经网络 (RNN) 通常用于表示句子或短语，并且卷积神经网络 (CNN) 已显示出最能表示图像。

image-20221129192816409
通过将图像和文本表示随机投影到更高维空间
然后通过在快速傅立叶变换（FFT）空间中使用逐元素乘积来有效地卷积两个向量
本文的还有一个亮点在于，对于VQA任务，使用两次MCB-一次用于预测对于空间特征的attention，另一次用于融合文本特征和视觉特征。

image-20221130171438585
在VQA中，模型的输入是图像和问题，目标是回答问题。模型提取图像和问题的表示形式，使用MCB池向量，并通过将问题视为具有3,000可能类的多类分类问题来得出答案。

这里用到了两次MCB模块，第一个MCB融合图像特征和文本特征计算图像每个空间位置的attention weight。第二个MCB融合图像特征和文本特征得到答案。

首先使用在 ImageNet 数据上预训练的 152 层残差网络提取图像特征。图像大小调整为 448×448，我们使用 1000 路分类器之前的层（“pool5”）的输出。然后我们对 2048-D 向量执行 L2 归一化。对于视觉表示中的每个空间网格位置，使用 MCB 池将视觉特征的切片与语言表示合并。
为了整合空间信息，在MCB池化方法上使用软注意力。
在池化之后，使用两个卷积层来预测每个网格位置的注意力权重。
输入问题首先被标记为单词，单词被单热编码并通过学习嵌入层传递。嵌入后使用 tanh 非线性。嵌入层之后是一个 2 层 LSTM，每层有 1024 个单元。每个 LSTM 层的输出连接起来形成一个 2048 维向量。
然后这两个向量通过 MCB。 MCB 之后是逐元素符号平方根和 L2 归一化。在 MCB 池化之后，一个完全连接的层将生成的 16,000 维多模态表示连接到 3,000 个最佳答案。

image-20221130214127709
对于具有多个选项的VQA，可以额外嵌入答案。为了处理多个可变长度答案选择，每个选择都使用词嵌入和LSTM层进行编码，这些层的权重在候选语句之间共享。

除了使用带有注意力机制的MCB之外，我们还使用了额外的MCB池化来将编码的答案选择与原来的多模式表示合并。

image-20221130214444152
模型的输入是查询自然语言短语和图像以及多个标注框。目标是预测与查询短语对应的框。

13.Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph(2018, Annual Meeting of the Association for Computational Linguistics/374 Citations)
这是一个数据集
论文中描述的CMU-MOSEI数据集规模最大的三模态数据集，且具有情感和情绪两个标签。但是这里要注意，数据集是多标签特性，即每一个样本对应的情绪可能不止一种，对应情绪的强弱也不同，在[-3~3]之间。数据集的原始数据给出了，但是过于原始，即给出的是文本，音频和视频文件，图像还得自己去以固定频率捕获并且和文本语音对其还是比较麻烦的。大多实验都使用处理好的实验数据。
14.Efficient Low-rank Multimodal Fusion With Modality-Specific Factors(2018, Annual Meeting of the Association for Computational Linguistics/250 Citations)
先有TFN(Tensor Fusion Network for Multimodal Sentiment Analysis)，在此基础上提出LMF(Efficient Low-rank Multimodal Fusion with Modality-Specific Factors)对TFN方法进行改进，接着在这篇文章基础上又有了：Low Rank Fusion based Transformers for Multimodal Sequences
多模态数据的融合是将多个单模态表示集成为一个紧凑的多模态表示的过程。融合的目标是结合多种模态，以利用异构数据的互补性，并提供更稳健的预测。
Introduction
Introduction部分紧扣多模态融合的主题，第一段先讲多模态研究的好处，第二段介绍多模态融合是多模态研究的重要挑战，其目标、不足，接着针对不足提出了这篇文章的方法:LMF

image-20221201165700796
LMF首先通过将单峰输入xa、xv、xl分别传递到三个子嵌入网络fv、fa、fl中来获得单峰表示za、zv、zl。LMF通过执行具有模态特定因子的低秩多模态融合来产生多模态输出表示。然后可以使用多模态表示来生成预测任务。
本文的主要贡献如下:
提出了用于多模态融合的低秩多模态融合方法，该方法可以在模态数量上线性缩放。
展示了模型在公共数据集上评估的三个多模态任务的性能上与最先进的模型进行了比较。
展示了模型在计算上是有效的，与以前的基于张量的方法相比具有更少的参数。
相关工作
多模态融合使我们能够利用多模态数据中存在的互补信息，从而发现信息对多模态的依赖性。
多模态融合方法
早期融合
feature concatenation 直接拼接特征。
这类方法的缺点是，尽管它在早期阶段实现了融合，但是模态内交互可能被抑制，从而失去了每个模态内的上下文和时间依赖性。
晚期融合
后期融合为每个模态构建单独的模型，然后使用多数表决或加权平均等方法将输出集成在一起
由于为每种模态建立单独的模型，因此通常不能有效地对模态间的相互作用进行建模。
中间融合
both intra- and inter- modal.
上一篇12.双线性池化文章就属于这一类。类似于利用交互的想法，Zadeh 等人. (2017) 提出张量融合网络(Tensor Fusion Network,TFN)，它计算来自三种不同模态的单模态表示之间的外积，以计算张量表示。
但是，此类方法的计算复杂度呈指数增长，因为多个模态上的外积会导致极高维张量表示。
然而，这些先前的工作中没有一个旨在将低秩张量技术应用于多模态融合。
本文的低秩多模态融合方法提供了一个更有效的方法来计算基于张量的多模态表示，具有更少的参数和计算复杂度。
15.Learning Two-Branch Neural Networks for Image-Text Matching Tasks
Image Caption 深度学习方法综述
基本都是CNN提取图片特征，RNN进行解码，LSTM也是特殊的RNN
Image Caption是结合了CV和NLP的综合性任务
图文匹配的双流神经网络架构
跨媒体检索-有监督方法、文本图像跨媒体检索。属于多模态任务中的映射和对齐。
本文研究了双分支神经网络，以了解这两种数据模态之间的相似性。文中假定两种网络产生不同的输出理解。首先，学习一个显式、具有最大边际排序损失和新的邻域约束的共享嵌入空间。第二个网络结构，称为相似性网络，通过按位相乘融合两个分支，并且用回归损失训练来直接预测相似性得分。
16.Memory Fusion Network for Multi-view Sequential Learning(2018, AAAI Conference on Artificial Intelligence/299 Citations)
记忆融合网络MFN
TFN是张量融合网络
在这里插入图片描述

文章分类：表示和融合
这篇文章的介绍部分首先简介了什么叫多视角数据，即多模态数据，接着介绍了多视图序列学习存在两种交互，接着提出MFN并对结构进行介绍，最后介绍模型的验证，以及和之前的方法相比取得了最优结果。
17,18年是注意力机制开始统治学术界的一年，很多工作都做了这方面的工作。
Multi-View Sequential Learning：多视图序列学习，即多模态序列学习。多视图学习通过挖掘不同视图之间的一致性和互补性，可以比单视图学习更有效、更有前景、泛化能力更强。文章中的multi view其实指代可以很广泛，许多地方也叫做多模态。本文中的多模态数据以序列形式来表示。
对于多模态序列学习而言，模态往往存在两种形式的交互：模态内关联（view-specific interactions)和模态间关联（cross-view interactions)。这篇文章提出了Memory Fusion Network(MFN)方法来处理这种多模态序列建模，用于对模态内与模态间的不同处理。

MFN组成：
第一个组成部分：LSTM系统。在LSTM系统中，每个视图被分配一个LSTM函数以建模视图内的交互。
第二个组成部分：Delta-memory Attention Network(DMAN)，DMAN通过将相关性得分与每个LSTM的记忆维度相关联来识别交叉视图交互。
第三个组成部分：Multi-view Gated Memory，该存储器基于DMAN的输出和其先前存储的内容来更新其内容，充当动态存储器模块。
预测是通过集成特定视图和跨视图信息来执行的。
2和3致力于处理模态间的交互。
用memory的目的是能保存上一时刻的多模态交互信息，gated过滤，Attention分配权重。

17.Deep Visual-Semantic Alignments for Generating Image Descriptions(2014, IEEE Transactions on Pattern Analysis and Machine Intelligence/4529 Citations)
用于生成图像描述的深度视觉语义对齐
分类：对齐，转换
本文对齐模型是基于图像区域上的卷积神经网络（CNN），句子上的双向递归神经网络（RNN），以及通过多模态嵌入将两种模式对齐来达到结构化目标。然后使用一个多模态递归神经网络架构，它使用推断的对齐来学习生成新的图像区域的描述。
这篇文章在当时有两个方面的突破：
提出了一种深度神经网路模型，该模型用来将训练样本中图片中的一些重点部分与生成句中的词组相对应。
提出一种多通道RNN框架来描述一张图片。
18.Tensor Fusion Network for Multimodal Sentiment Analysis(2017, Conference on Empirical Methods in Natural Language Processing/569 Citations)
多模态融合的baseline
用于多模态情感分析的张量融合网络
张量积(tensor product) ，可以应用于不同的上下文中如向量、矩阵、张量、向量空间、代数、拓扑向量空间和模。在各种情况下这个符号的意义是同样的：最一般的双线性运算。在某些上下文中也叫做外积。
本文提出了多模态情感分析的问题，即模态内和模态间动态建模问题，也就是要求既能考虑各模态之间的特征融合，也要有效地利用各特定模态的特征。本文引入了一个新的模型，称为张量融合网络(TFN)，它端到端地学习模态内和模态间的动态。所提出的方法是针对在线视频中口语的易变性以及伴随的手势和声音而定制的。
本文在大量实验中，展示了
TFN优于之前的多模态情感分析方法，
多模态情感分析张量融合方法的特征和能力
三个模态嵌入子网络（语言、视觉和听觉）中的每一个也优于单模态情感分析方法。

image-20221208110838781
图1说明了复杂的模态间动态。“This movie is sick”这句话本身可能是模棱两可的(无论是积极的还是消极的)，但如果说话者同时也在微笑，那么它就会被认为是积极的。另一方面，同样的话如果皱着眉头，会被认为是负面的。一个大声说“This movie is sick”的人仍然是模棱两可的。这些例子说明了双模态相互作用。
图1显示了三模态互动的例子，较大的声音会使情绪变得积极。第二个三模态的例子显示了模态间动态的复杂性，在这个例子中，考虑到“fair”这个词的强影响，“This movie is fair”这句话仍然是弱积极的。
TFN
TFN模型组成部分：

Modality Embedding Subnetworks:单模态特征为输入，输出丰富的模态嵌入。
Tensor Fusion Layer:使用模态嵌入的3-fold笛卡尔积显式地模拟单模态、双模态和三模态相互作用。
Sentiment Inference Subnetwork是以张量融合层的输出为条件进行情感推理的网络。
Modality Embedding Subnetworks
模态嵌入子网络按照三个不同的模态分为Spoken Language Embedding Subnetwork、Visual Embedding Subnetwork和Acoustic Embedding Subnetwork。

img
在上图提取语言模态特征时，首先通过GloVe将每个单词转化为300维的向量，然后通过LSTM来恢复之前被稀释或丢失的可用信息并输出hi，将h1、h2、h3……h_Ti串联而成的语言矩阵表示为hl。然后将hl用作全连接网络的输入，该网络生成语言嵌入zl。

Visual Embedding Subnetwork
作者使用FACET模型来检测说话人的面部表情，并提取7种基本情绪（愤怒、蔑视、厌恶、恐惧、喜悦、悲伤和惊讶）和两种高级情绪（挫折和困惑）。还使用OpenFace对每帧的头部位置、头部旋转和68个面部地标位置进行了估计。

Acoustic Embedding Subnetwork
对于每个意见音频，作者使用COVAREP声学分析框架来提取一组声学特征。

Tensor Fusion Layer

image-20221209155823294
上图中有七个语义不同的子区域。前三个子区域zl、zv和za是在在张量融合中形成单模态相互作用的模态嵌入子网络的单模态嵌入。三个次区域zl⊗zv，zl⊗za和zv⊗za捕捉张量融合中的双模态相互作用。最后，zl⊗zv⊗za捕捉了三模态相互作用。

Sentiment Inference Subnetwork
在张量融合层之后，每个观点话语都可以表示为一个多模态张量。作者使用了一个完全连接的深层神经网络，称为情绪推理子网络Us，其权重Ws以为条件。该网络的体系结构由两层128个ReLU激活单元组成，连接到决策层。

另外，作者在实验中使用了Us网络的三种变体形式，分别用来完成三个不同的情感分类任务。

（1）第一个网络训练用于二元情感分类，使用二元交叉熵损失的单个sigmoid输出神经元。

（2）第二个网络设计用于五类情绪分类，并使用分类交叉熵损失的softmax概率函数。

（3）第三个网络使用单个sigmoid输出，使用均方误差损失进行情绪回归。

19.Automatic Description Generation from Images: A Survey of Models, Datasets, and Evaluation Measures(2016, International Joint Conference on Artificial Intelligence/303 Citations)
20.Deep Multimodal Representation Learning: A Survey(2019, IEEE Access/151 Citations)
多模态表示学习的主要目标是缩小联合语义子空间中的分布差距，同时保持特定模态的语义的完整。
典型模型与三个框架之间的联系

image-20221212120012009
三种框架的典型应用总结

image-20221212160029415

image-20221212154911746
根据图中所示的底层结构，将深度多模态表示方法分为三种不同类型的框架：

联合表示，旨在将单模态表示一起投射到一个共享的语义子空间，以便融合多模态特征；
协调表示，包括跨模态相似模型和规范相关分析，它寻求学习协调子空间中的每个模态的分离但受约束的表示；
编码器-解码器模型，努力学习用于将一种模态映射到另一种模态的中间表示。
用于图像特征学习的最流行模型是卷积神经网络（CNN），如LeNet、AlexNet、GoogleNet、VGGNet[48]和ResNet

特定模态表示
尽管各种不同的多模态表示学习模型可能共享相似的架构，但用于提取特定模态特征的基本组件彼此之间可能会有很大的不同。它们可以集成到多模态学习模型中，并与其他组件一起进行训练。

B.联合表示

整合不同类型的特征来提高机器学习方法性能的策略一直被研究使用。为了弥合不同模态的异质性差距，联合表示的目的是将单峰表示投射到一个共享的语义子空间中，在那里多模态特征可以融合[18]。在每个模态通过单个神经网络编码后，它们都将被映射到一个共享的子空间，在那里，模态共享的概念将被提取并融合到一个单一的向量中。

在这里插入图片描述

加法融合

乘法融合

在这里插入图片描述
用于处理数据缺失的训练技巧也有助于获得模态不变属性，这意味着模态之间的统计分布的差异被最小化，或者换句话说，特征向量包含最小的模态特定特征。

学习到的向量不能保证会融合互补的语义，形成不同的模式，因为联合表示倾向于保留跨模态的共享语义，而忽略了特定于模态的信息。一个解决方案[74]是在优化目标中添加额外的正则化项。例如，多模态自动编码器[1]中使用的重构损失，作为保持模态独立性发挥作用。 [21]对网络权值进行跟踪范数正则化，以揭示多模态特征的隐藏相关性和多样性。直观地说，如果一对特征高度相关，那么用于融合它们的权重应该是相似的，这样它们对融合表示的贡献将大致相等。因此，跟踪范数正则化的目的是发现模态之间的关系，并相应地调整融合层的权重。他们在视频分类任务中的实验表明，这个正则化项有助于提高性能。

优点：

可以方便地融合多模式，不需要明确地协调模式
共享的公共子空间倾向于是模态不变的，这有助于将知识从一种模态转移到另一种[1]，[73]。
缺点：不能用来推断每个模态的分离表示。

C. 协调表示

协调表示框架是在某些约束[18]下学习每个模态的分离但协调的表示。由于在不同模式中包含的信息是不平等的，学习分离的表示有助于坚持独家和有用的模式特异性特征[31]。通常，在约束类型的条件下，协调表示方法可以分为两组，基于跨模态相似性和基于跨模态相关性。

在这里插入图片描述
基于跨模态相似性的方法旨在学习一个共同的子空间，其中向量的距离可以直接测量[75]，而基于跨模态相关的方法的目的是学习一个共享的子空间，从而使不同模式的表示集的相关性最大化[5]。

跨模态相似度方法在相似度度量的约束下学习协调表示。该模型的学习目标是保持模态间和模态内相似结构，缩小类内矩扩大类间距。

在这里插入图片描述
除了学习模态间相似性度量外，跨模态应用还应保持模态内相似性结构。一种广泛使用的策略[30]，[79]是对学习特征进行分类，使它们在每个模态中都具有鉴别性。另一种方法是在每个视图中保持邻域结构。另外[80]提出通过协调表示模型来学习图像-文本嵌入，该模型将交叉视图排序约束与视图损失函数内邻域结构保存约束相结合。

与其他框架相比，协调表示倾向于坚持每个模态中唯一且有用的模态特定特征。

优点：

由于不同的模态被编码在分离的网络中，每个模态都可以单独推断出来。这一有利于跨模态迁移学习，旨在跨不同的模式或跨领域转移知识。

缺点：

大多数情况下，很难学习具有两种以上模式的表示。

D.编解码器
将一种模态映射到另一种模态编码器将源模态映射到一个潜在的向量v中，然后，基于向量v，解码器将生成一个新的目标模态样本。

在这里插入图片描述
表面上，编码解码器模型学习到的潜在向量似乎只与源模式有关，但实际上，它与源模式和目标模式都密切相关。由于纠错信号的流动方向是从解码器到编码器的，因此编码器在训练过程中由解码器引导。随后，生成的表示法倾向于从这两种模式中捕获共享的语义。

优点：能够在源模态表示上生成目标模态条件新的样本。

缺点：每个编码器-解码器只能编码其中一种模式。此外，应该考虑到设计生成器的复杂性，因为生成合理目标的技术仍在其开发中。

3.典型模型
A. 概率图（GRAPHICAL）模型
包括深度置信网络(DBN)[97]和深度玻尔兹曼机(DBM)[98]。前者是由定向信念网络和RBM层组成的部分有向模型，后者是完全无向模型。

优点：

可以以无监督的方式进行训练，允许使用未标记的数据
来自于它们的生成性质使得可以在其他的[96]上生成缺失的模态条件成为可能
缺点：相当高的计算成本

B. 多模态自编码器
无监督，不需要标签。编码器将输入转换为一个压缩的隐藏向量，也称为潜在表示，而解码器则努力基于这种潜在表示重构输入，从而使重构损失最小化。
使用自动编码器来提取中间特征的模型可以分成两个阶段。第一步，在无监督学习的基础上，通过分离的自动编码器提取特定于模态的特征。然后，将施加一个特定的监督学习程序来捕获跨模态相关性。

优点：

学习到的潜在表示可以保留输入数据的主要语义信息。从生成模型的角度来看，由于输入可以从这种潜在的表示中重构，因此可以相信生成输入的关键因素已经被编码。
可以通过无监督的方式进行训练，而不需要标签。
缺点：由于该模型主要是为通用目的而设计的，为了提高其在特定任务中的性能，需要涉及额外的约束或监督学习过程。

C. 深度规范相关分析（CCA）
是一种最初用于测量一对集合之间的相关性的方法。在多模态表示学习场景中，给定两组数据，每对都是包含两种模式的数据样本，CCA的目标是找到两组基向量用于将多模态数据映射到共享的d维子空间，使得这样投影表示之间的相关性最大化[5]，[110]。如果每个集合的均值为零，目标函数如下

在这里插入图片描述
基本的CCA仅限于建模线性关系，一个非线性扩展是核CCA[111]，它在应用CCA方法之前将数据转换为高维希尔伯特空间。但是可伸缩性[112]较差，因为它的封闭形式的解决方案需要计算高时间复杂度和内存消耗；而且效率很差，这是由于它在转换一个看不见的实例[117]时需要访问所有的训练集。
通常，最大化相关目标侧重于学习共享的语义信息，但往往忽略特定模态的知识。为了解决这个问题，应该考虑额外的正则化术语。

优点：可以以无监督的方式进行训练

缺点：计算复杂度较高，这可能会限制其在数据大小上的可伸缩性。

D. 生成对抗网络
作为一种无监督的学习方法，它可以用于学习数据表示，而不涉及标签，从而显著降低了对人工注释的依赖性。此外，作为一种生成方法，它可以根据训练数据的分布生成高质量的新样本。
与经典的表示学习方法相比，GANs的一个明显区别是，数据表示的学习过程并不简单。这是一种隐含的范式。与传统的无监督表示方法不同，如直接学习从数据到潜在变量的映射的自动编码器，GANs学习从潜在变量到数据样本的反向映射。具体来说，生成器将一个随机向量映射到一个独特的样本中。因此，这个随机信号是一个对应于生成的数据的表示。

生成对抗网络是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。该方法由Google研究人员Ian Goodfellow于2014年提出。生成对抗网络由一个生成网络与一个判别网络组成。生成网络从潜在空间（latent space）中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

image-20221212115946149
21.Foundations and Recent Trends In MultiModal Machine Learning：Principles，Challenges and Open Questions()
多模态问题的两个关键特点和六个核心挑战
两个原则
不同模态之间是异构的，因此不同模态中的信息通常表现出不同的质量、结构，例如文本，图像，音频，视频，时间序列，面板数据，图数据等等
模态是相互关联的，对于下游任务而言，它们通常相互存在关联、共享某些共性或具有复杂的相互作用，从而产生新的信息。
多模态研究的基本原则
模态是指某物被感知或表达的一种方式。例如，模式及其各自的感知包括通过麦克风记录的语音和音频、通过摄像机捕捉的图像和视频、通过触觉传感器、激光雷达和雷达信号、输入文本以及脑电图、心电图、功能磁共振成像、血压和其他生理信号。

端到端
参考链接：http://t.csdn.cn/W8Kif
端到端指的是输入是原始数据，输出是最后的结果，原来输入端不是直接的原始数据，而是在原始数据中提取的特征

1.Data and Label Efficient Representation Learning
这篇文章有助于写未来发展方向
Data efficient representation learning focuses on learning useful representations with less data (labeled or unlabeled), which as discussed throughout this dissertation, can be particularly important for applications with limited data availability. Label efficient representation learning focuses on learning useful representations with little or no human annotations for the training data. As will be discussed, this is important for applications where it is often difficult or impossible to obtain accurately labeled data, such as in privacy sensitive fields or for applications with highly ambiguous label definitions.

如何利用低质量的多模态数据进行融合也是一个未来的研究方向
数据高效表示学习关注于用较少的数据（标记或未标记）学习有用的表示，如贯穿本论文所讨论的，这对于具有有限数据可用性的应用可能特别重要；标记有效表示学习关注于学习对训练数据具有很少或没有人工注释的有用表示。
主要包括四部分

自增强(SelfAugment)：用于自监督学习的自动增强策略，探索了如何使用很少/没有标记的训练数据和少量未标记的数据为无监督学习管道开发增强策略。
数据有效的自我监督的表征学习（Data Efficient Self-Supervised Representation Learning），探索如何利用一种形式的分层预训练的80倍以上的数据有效的预训练。
区域相似性表示学习（Region Similarity Representation Learning），其通过在区域（基于块）级执行对比学习来探索用于学习区域级表示的第一方法之一，并且当很少有标记数据可用时，使得下游任务（例如对象检测/分割）得到实质性改进。
Scale-MAE：一个用于多尺度地理空间表示学习的尺度感知掩蔽自动编码器，探索利用已知尺度信息进行地理空间表示学习的方法。
2.On the Benefits of Early Fusion in Multimodal Representation Learning
为了便于早期多模融合的研究，这篇文章创建了一个卷积LSTM网络架构，该架构同时处理音频和视频输入，并允许选择音频和视频信息组合的层。该立即融合模型（C-LSTM体系结构）研究了融合深度对噪声鲁棒性的影响。
immediate fusion立即融合可以加入到第二章去
inductive bias归纳偏置
一个密切相关的领域是多视图学习。虽然这两个领域有很大的重叠，但多视图学习强调从相同的输入模式获得不同的视图。一个典型的例子是从两个视角捕获相同的场景（两个视图都使用视觉模态）。
为了保持这些模态特异性归纳偏置的优点，同时也允许音频和视频输入的立即融合，这篇文章创建了一个多模态卷积长短时记忆网络，该网络生成具有适当归纳偏置的音频-视频融合表示。这个卷积长期短期记忆(简称C-LSTM)架构结合了传统卷积神经网络和传统长短期记忆网络中的卷积特性。

image-20230227161921086
前两层为多模态卷积长短期记忆网络，以及用于计算门和更新值的方程。ft是遗忘门，it是输入门，gt是单元门，ot是输出门。W是对应的权重矩阵，b是对应的偏置值。σ（）是S形函数。tanh（）是双曲正切函数。
在卷积的每个点，第一层取：
输入图像的部分要乘以卷积核，记为v。
隐藏状态的部分要乘以卷积核，记为ht − 1。对于第一层中的第一个时间步长，其被初始化为零。
音频输入在给定时间步长的声谱值表示为at。
然后该模型使用上图“Initial LSTM Gate Values”公式计算LSTM门值：v、ht−1和at。初始的C-LSTM层产生一个单一的多模态张量，该张量组合了来自音频和视觉输入的信息。与标准LSTM体系结构一样，前一层的隐藏状态ht被用作当前层的输入xt。因此，在后续的LSTM层中，每个位置的门值都是从组合多模态输入xt的部分乘以卷积核来计算的。
在随后的 Subsequent LSTM Gate Values部分，通过在卷积的每个位置应用LSTM操作，该结构允许LSTM单元响应来自视觉域的空间信息以及音频域的时间信息。这种架构使我们能够研究初始层、第二层和完全连接层的信号融合，同时保持有利于处理图像和序列数据的相同归纳偏置。
3.Multimodal Intelligence: Representation Learning,Information Fusion, and Applications
《多模态智能：表示学习、信息融合及其应用》
这篇文章提供了多模态智能的可用模型和学习方法的技术综述。视觉与自然语言的结合是目前计算机视觉和自然语言处理领域的研究热点。这篇综述从三个新的角度—学习多模态表示、多模态信号在各个层面的融合和多模态应用,对多模态深度学习的最新工作进行了全面分析。
这篇文章回顾了基于深度学习的多模态建模和机器学习领域，特别是视觉和自然语言的结合。
多模态融合主要讨论了注意力机制和双线性池化等特殊架构
这篇论文Introduction部分首先讲了单模态的处理，然后讲了多模态的处理，最后一段介绍这篇文章的结构
基于简单操作的融合
直接连接（concatenation）
加权和（weighted sum）
基于注意力机制
1.图片注意力机制
基于RNN的编码器-解码器模型
堆叠式注意力网络（SANs）
空间存储网络(SMem)
动态记忆网络（DMN）
自下而上和自上而下的注意力方法（Up-Down）
图像注意力机制的逆过程
2.图片和文本协同注意力机制
平行协同注意力机制和交替协同注意力机制
双重注意力网络（DAN）
堆叠潜在注意力机制（SLA）
双循环注意力单元（DRU）
3.双模态Transformer注意力机制
BERT->
OmniNet->
LXMERT->
ViLBERT
4.其他注意力机制
门控多模态单元
多模态残差网络（MRN）
动态参数预测网络（DPPnet）
基于双线性池化
双线性池化的因式分解
多模态紧致双线性池(MCB)
多模态低秩双线性池（MLB）
多模态分解双线性池（MFB）
多模态分解高阶池化(MFH)
MUTAN，基于张量的多模态Tucker分解方法
BLOCK，分块超对角融合框架。BLOCK也可以认为是MUTAN的改进版
双线性池化和注意力机制结合
双线性池可以与注意机制一起使用。

4.Bilinear CNNs for Fine-grained Visual Recognition
作者提出了Bilinear Convolutional Neural Networks(B-CNNs)用于细粒度的视觉识别问题，这个网络将一个图片表示为来自于两个CNN特征的池化外积，并且以平移不变的方式捕获局部化特征交互。
双线性特征的一个缺点是存储高维特征的内存开销。
介绍部分
细粒度识别即对隶属于同一类的目标进行分类，包括鸟的物种识别、汽车的型号识别和狗的品种识别。细粒度识别高度依赖目标的局部特征。例如，要将“加利福尼亚鸥”与“环嘴鸥”区分开来，需要识别其喙上的图案或它们羽毛的细微颜色差异。

img

有两大类技术对这些任务是有效的：

一是局部模型，这些模型检测并提取局部的特征进行细粒度的类别区分
另一种方法是基于全局图像的整体模型。
之前方法的不足：

基于CNN的局部模型要求对训练图像局部标注，代价昂贵，并且某些类没有明确定义的局部特征，如纹理及场景。
虽然传统的SIFT纹理表示和最近的CNN特征表示在细粒度目标分类上也比较有效，但仍然达不到基于局部的方法的分类效果。其可能原因就是纹理表示的重要特征并没有通过端到端训练获得，因此在识别任务中没有达到最佳效果。
为了解决现有的深度纹理表示的几个缺点，文章提出了Bilinear CNNs.
洞察点：某些广泛使用的纹理表征模型都可以写作将两个合适的特征提取器的输出，外积之后，经池化得到。
首先，（图像）先经过CNNs单元提取特征，之后经过双线性层及池化层，其输出是固定长度的高维特征表示，其可以结合全连接层预测类标签。最简单的双线性层就是将两个独立的特征用外积结合。这与图像语义分割中的二阶池化类似。
实验结果：作者在鸟类、飞机、汽车等细粒度识别数据集上对模型性能进行测试。表明B-CNN性能在大多细粒度识别的数据集上，都优于当前模型，甚至是基于局部监督学习的模型，并且相当高效。
用于图像分类的B-CNN
B-CNN 架构

image-20230306095237062

基于 B-CNN 的图像分类。将图像分别通过神经网络 A 和 B，利用矩阵外积和平均池化相结合的方法得到图像的双线性特征表示。这将通过一个线性和 softmax 层来获得类预测。

两个不同的stream代表着通过CNN得到的不同特征，然后将两个特征进行bilinear 操作。用于图像分类的 B-CNN 包含四部分：
其中
和
分别表示基于CNN的特征提取函数，P是池化函数,
是分类函数。
，输入图像I和位置L，得到大小为K × D的输出特征。位置通常是可以包含位置和尺度。通过矩阵外积得到每个位置的输出特征，即位置
处的特征
和
的双线性结合为：
注意
和
必须具有相同的特征维数 K 才能兼容。
池化函数 $\ P$ 的作用是在不同的位置L处的特征进行整合，来得到图片的全局信息
。作者使用的是sum池化，即：
由于在进行池化处理的过程中忽略了特征的位置，因此bilinear特征
是一个无序表示。如果f_A和 f_B分别提取尺寸为 K × M 和 K × N 的特征，则
的尺寸为 M × N。
通俗一点讲，就是对图像上的每个位置上的特征进行矩阵相乘，然后进行sum pooling 或者进行max-pooling。

特征函数
特征函数 f 的一个候选是由卷积层和池层的层次结构组成的 CNN。B-CNN中的特征函数f_A和f_B可以不共享/部分共享/完全共享

image-20230307101609424

归一化和分类函数
对bilinear特征
求带符号的平方根操作，即
然后再进行L2正则化操作
这样做可以提升模型性能。
分类函数使用logistic regression 或 linear SVM，作者发现线性分类模型SVM对于bilinear特征的分类效果较好。
端到端训练
B-CNN可以端到端的方式进行训练。因为整个结构是一个有向无环图，参数可以通过分类损失梯度的反向传播来训练(例如，交叉熵)。双线性形式简化了梯度计算。假设 dl/dx 是损失函数l相对于 x 的梯度，那么根据梯度的链式法则可以得到:
只要能够有效地计算特征 A 和特征 B 的梯度，整个模型就能够以端到端的方式进行训练。该方案如下图所示。

image-20230306195025483
Bilinear model 可以看做是其他特征算子（BOW，FV，VLAD）的通用形式。

降维
B-CNN计算了特征的外积，这样原始输出为512维特征的模型经过外积之后的特征变成了512 × 512 ≈ 262 k，特征是高度冗余的。对于 B-CNN，考虑在特征 x 和 y 之间计算外积的情况。为了减小计算量，可以采取下述几种降维方法：

先外积后降维，即
，vec操作将外积矩阵变换成向量，P表示降维的映射矩阵；
先降维后外积，即
，A，B均表示降维映射矩阵；
对其中一个特征降维再计算外积，假如对x进行降维处理，则设置B为单位矩阵。
上述三种方法中，降维映射矩阵都可以使用PCA得到。第一种方法比较直观，但是PCA的计算量很大，因为外积的维度为d^{2，那么其协方差矩阵的维度为d}4.第二种方法计算量小，但是准确率损失的太大。多实验中发现第三种方法效果最好。降维矩阵使用PCA进行初始化，但是可以与分类层联合地训练它们。

作者还比较了PCA方法与最近提出的紧凑双线性池（Compact Bilinear Pooling，CBP）技术，PCA方法略差于CBP。CBP使用特征稀疏线性投影与张量草图（Tensor Sketch）的乘积来近似外积。然而，PCA的一个优点是可以实现为密集矩阵乘法，经验上比CBP快1.5倍，CBP涉及计算傅里叶变换及其逆运算。

5.Compact Bilinear Pooling
摘要
双线性模型在语义分割、细粒度识别和人脸识别等视觉任务中表现出了令人印象深刻的性能。然而，双线性特征是高维的，通常在几十万到几百万的数量级，这使得它们对于后续分析是不切实际的。于是作者提出了两个紧凑双线性表示，它们与完整的双线性表示具有相同的鉴别能力，但只有几千维。这篇文章提出的紧凑表示允许分类误差的反向传播，从而实现视觉识别系统的端到端优化。通过对双线性池化的核分析，得到了紧凑双线性表示，为进一步研究紧凑池化方法提供了一个平台。

介绍
虽然上一篇文章Lin等人最近用双线性池取代了完全连接的层，实现了细粒度视觉识别的显著改进。
然而，它们的最终表示是非常高维的;在他们的论文中，编码的特征维数d大于250000。
上篇论文的主要缺点是：成本高（运算量、存储量）
这篇论文工作的主要贡献是一对双线性池方法，与完全双线性池相比，每种方法都能够将特征维度降低三个数量级，而性能损失很小或没有损失。
本文提出的紧凑双线性方法依赖于核函数的低维特征映射。
这项工作的贡献是三方面的。
首先，这篇文章提出了两种紧凑双线性池方法，与完整的双线性池方法相比，这种方法可以在性能几乎没有损失的情况下降低特征维数和数量级。
其次，本文证明了通过紧致双线性池的反向传播可以被有效地计算，允许识别网络的端到端优化。
第三，我们提供了一个新的双线性池的核化观点，这不仅推动了所提出的紧凑方法，而且提供了双线性池的理论见解。
紧凑双线性模型
首先，将bilinear pooling的结果写出来:
其中
是一组局部描述符，而 S 是一组空间位置(行和列的组合)。局部描述符xs 通常使用 SIFT ，HOG 或通过 CNN 的前向传递提取。B (X)是一个 c × c 矩阵，但是为了我们分析的目的，我们将它看作一个长度为 c2的向量。

双线性池化的核函数角度
使用双线性描述符的图像分类通常使用线性支持向量机(SVM)或 Logit模型来实现，这些都可以看作是线性内核机器。对于两组特征X和Y，用线性核分类可以作如下推导：

从式中的最后一行可以清楚地看出，双线性描述符将第一幅图像中的每个局部描述与第二幅图像中的局部描述进行比较，并且比较运算符是一个二阶多项式核。因此，双线性池给了线性分类器一个二阶核机器的判别力，这可能有助于解释在以前的工作中观察到的强大的经验性能。

紧凑双线性池化
设 k (x，y)表示比较核，即二阶多项式核。如果能找到一个低维映射函数 $\phi(x) \in R^d$ ，其中 $d<<c^2$ ，且满足：
即使得降维到d后的内积约等于原来k(x,y)中 $c^2$ 对的内积。如果能够找到这样的phi，那么可以通过以下方法来近似的内积:

其中 $C(\mathcal{X}):=\sum_{s \in \mathcal{S}} \phi\left(x_s\right)$ 是紧凑双线性特征。可以看出任何多项式核的低维度近似都可以拿来做紧凑双线性池化。这里研究了Random Maclaurin (RM) 和 Tensor Sketch(TS) 这两种方法。

RM 是一种早期的方法，用来作为低维显式特征映射来近似多项式核。

总结
作者已经在一个核框架中对双线性池化进行了建模，并提出了两种紧凑表示，这两种表示都允许梯度的反向传播，用于分类任务的端到端优化。

核函数
已知有一组向量，可用线性函数去探索其是否具有线性关系，若数据之间是非线性呢？

非线性数据是指只有利用非线性模型才能更好的预测。但非线性问题往往不好求解，所以希望用解线性分类问题的方法解决这个问题。所采取的方法是进行一个非线性变换，将非线性问题变换为线性问题，通过解变换后的线性问题的方法求解原来的非线性问题。原理是将数据映射到高维数据，在高维空间线性可分。如下图，从低维转换到高维， $\Phi$ 是转换函数。

img
不论是感知机还是支持向量机，在面对非线性问题时，往往都会用到一个名为“核函数”的技巧。

但是有个问题，高维空间的数据计算存在困难。所以替代方案是在特征空间中计算相似度度量，而不是计算向量的坐标，然后应用只需要该度量值的算法。用点积(dot product)表示相似性度量。

将原始空间中的向量作为输入向量，并返回特征空间（转换后的数据空间,可能是高维）中向量的点积的函数称为核函数。

使用内核，不需要显式地将数据嵌入到空间中，因为许多算法只需要图像向量之间的内积（内积是标量）；在特征空间不需要数据的坐标。

内积或点积的数学符号一般用一个点表示，例如 $\vec{a} \cdot \vec{b}$
但如果在高维空间（大于等于三维），通常用括号<>表示，例如
考虑一个带有特征映射的二维输入空间 $\chi \subseteq \mathbb{R}^2$ :
特征映射二维到三维：
特征空间中的内积：

根据上面得，核函数为 $z)=\langle x, z\rangle^2=\Phi(x)^T \Phi(z)$

哈达玛积（基本积）

image-20230308191303824
6.Multimodal Prompting with Missing Modalities for Visual Recognition
用于视觉识别的多模态缺失提示学习
本文要解决多模态学习中的两大挑战：
在现实世界中，数据并非总是完整的，有时可能会遇到缺失某些模态的情况。
训练transformer的繁重计算要求
作为一种简单而有效的方法，作者提出了一种缺失感知提示方法，该方法易于插入到类Transformer的多模态模型中，以缓解由于缺失模态而导致的性能下降，同时也不需要进行大量的模型微调。作者进一步探索了提示的配置，并展示了在各种场景中对缺失模态的鲁棒性。
大量的实验和消融研究证明了该方法的有效性。

image-20230315105802318
多模态转换器训练中的模态缺失场景说明:
先前的工作研究了多模态变压器对模态不完整测试数据的鲁棒性，要求使用模态完整训练数据微调整个模型。
相比之下，这篇论文的工作研究了更一般的场景，其中各种模态缺失情况不仅在每个数据样本中发生，而且在学习阶段（训练、测试或两者）也会发生，作者采用提示学习来适应下游任务的预训练转换器，而不需要对整个模型进行微调的繁重计算。
大多数基于多模态Transformer的方法都是假设数据完整的，但是在现实情况下不成立。当数据是模态不完整时，性能可能降低（不管训练或测试如何）
另一方面，由于Transformer的强泛化能力，常被用作预训练模型的主要组成部分，并微调来处理各种下游任务。但是随着模型尺寸的增加，微调的成本越来越高。此外，在小规模的数据集上进行微调会限制泛化能力和稳定性
这篇文章的贡献如下：

本文介绍了一个多模态学习的一般场景，在训练或测试阶段，对于每个数据样本来说模态的缺失可能会不同
本文建议使用缺失感知提示来处理缺失模态的情况，同时只需要不到1%的参数来适应预先训练的模型，从而避免微调大型Transformer
这篇文章进一步研究了将提示附加到预训练Transformer不同位置的两种设计：输入级和注意级提示学习，其中输入级提示学习通常是更好的选择，但注意级提示对某些数据集设置不太敏感。
最近有很多对于缺失模态的工作：
Are multimodal transformers robust to missing modality?
Smil: Multimodal learning with severely missing modality.
Tag-assisted multimodal sentiment analysis under uncertain missing modalities.
Missing modality imagination network for emotion recognition with uncertain missing modalities.
模型架构
整体框架
本文主要研究一般情况下模态缺失的多模态学习问题。假设存在几种模态缺失情况，例如：缺失一个模态或缺失多个模态，以表示现实世界中多模态学习的更现实的场景。

研究意义：1.现实世界中多模态学习的更现实的场景往往缺失模态。2.由于预训练的Transformer变得更大并且在有限的计算资源下不可训练。因此开发无需微调整个预训练模型的方法至关重要。

1.问题定义
本文考虑由M = 2个模态m1和m2组成的多模态数据集（例如，图像和文本）。给定多模态数据集 $KaTeX parse error: Expected '}', got '\right' at position 30: …^{m_1}, D^{m_2}\̲r̲i̲g̲h̲t̲}$ ，我们将 $KaTeX parse error: Expected '}', got '\right' at position 36: … x_i^{m_2}, y_i\̲r̲i̲g̲h̲t̲}$ 表示为模态完整子集，而将 $KaTeX parse error: Expected '}', got '\right' at position 29: …{x_j^{m_1}, y_j\̲r̲i̲g̲h̲t̲}$ 和 $KaTeX parse error: Expected '}', got '\right' at position 29: …{x_k^{m_2}, y_k\̲r̲i̲g̲h̲t̲}$ 分别表示为缺少一种模态的模态不完全子集（例如，仅文本和仅图像）。

为了保持多模态输入的格式，我们简单地将虚拟输入 $\tilde{x}^{m_1}$ 、 $\tilde{x}^{m_2}$ （例如，文本/图像的空字符串/像素）到缺失模态数据，并获得 $KaTeX parse error: Expected '}', got '\right' at position 56: …x}_j^{m_2}, y_j\̲r̲i̲g̲h̲t̲}$ ， $KaTeX parse error: Expected '}', got '\right' at position 54: … x_k^{m_2}, y_k\̲r̲i̲g̲h̲t̲}$ 。因此，可以将具有缺失模态的多模态数据重组为 $KaTeX parse error: Expected '}', got '\right' at position 54: …\tilde{D}^{m_2}\̲r̲i̲g̲h̲t̲}$ 。

为简单起见，本文遵循[22]，采用多模态transformer—ViLT 作为本文的主要模型，该模型在大规模视觉和语言数据集上进行了预训练。注意：由于计算资源的限制，在这篇论文的场景中主要模型是不可训练的。

为了解决缺失模态的问题，本文提出了缺失感知提示来指导预先训练的模型在不同的输入情况下进行预测。这些提示根据输入数据的缺失情况来分配，并且被附加到多模态transformer的多个模块。在不可训练的预训练模型的假设下，唯一可训练的参数是用于学习多模态分类器的缺失感知提示、池化层和全连接层。

image-20230318101716920
2.缺失模态的提示学习
提示学习是自然语言处理中一种有效的迁移学习方法，它不需要对整个预训练模型进行微调。

首先为M个模态任务分配$ M^2-1 $个提示（例如：视觉语言任务的 3 个缺失感知提示），并根据缺失模态的类型将它们预先附加到输入中。给定具有 N 个连续 MS A （ M u lt i - h e a d S e l f A tt e n t i o n l a yers ）层的预训练多模态 t r an s f or m er$ f_\theta $，我们将第 i 个 MS A 层的输入嵌入特征表示为$ h^i \in \mathbb{R}^{L \times d}, i=1,2, \ldots, N $，输入长度为 L ，嵌入维数为 d 。注意$ h^1 $是特定模态嵌入函数的输出，其将输入预处理为标记（ t o k e n ）序列（即，用于文本模态的 BERT 标记器和用于图像模态的视觉嵌入层）。然后，在第 i 层中加入缺失感知提示$ p_m^i \in \mathbb{R}^{L_p \times d} $，其中$ L_p $为提示长度， d 为嵌入维数，$ m \in\left{c, m_1, m_2\right}$表示不同的模态缺失情况。
最后，将缺失感知提示与输入长度维度一起附加到嵌入特征上，以形成扩展特征：

整体目标
本文选择多模态转换器的文本相关任务标记作为我们的最终输出特征。

对于模型训练，除了任务特定层$ $（即：池化层和完全连接层）外，本文冻结了多模态变压器的所有参数$ f_\theta$ ，以便基于每个视觉感知任务输出相应的预测。此外，将 $\theta_p$ 表示为缺失感知提示的参数。带有可训练参数的总体目标定义为：
其中 $\left(x_i^{m_1}, x_i^{m_2}\right) \in \tilde{D}$ 是具有缺失模态情况的多模态输入对，并且 $L_{t a s k}$ 表示特定任务的多模态目标，例如，用于电影类型分类的二元交叉熵损失。

3.提示设计
背景：一般来说，大多数基于提示的方法通常会将提示添加到输入序列中，并指示模型执行下游任务。然而，[36]表明提示的配置和添加提示的位置对于基于提示的学习至关重要

研究意义：在本文的情况下，由于可能缺少输入模态，因此研究附加提示的正确配置非常重要。

两种提示配置：输入级提示（input-level prompting）和注意级提示（attention-level prompting）

image-20230319100511015

两种提示方法的说明图。上面的模块显示了输入级提示方法，它将缺失感知提示 $p_m^i$ 附加到第i个MSA层的输入中。下块示出了注意力水平提示方法，其首先将缺失感知提示 $p_m^i$ 拆分成具有相同长度的两个子提示 $p_k^i$ 、 $p_v^i$ ，并且将它们分别附加到第i个 MSA层中的键 $K^i$ 和值 $V^i$ 。

输入级提示
附加提示的一种常见方法是将提示添加
到每个层的输入序列中，如上图所示。提示函数可以写成：
其中
表示连接操作。假设有附加提示参数的N_p层，每个MSA层的输入/输出序列的长度会随着它的深入而变大。例如，带有提示的最后MSA层的输出中的序列长度将变为
。

当前层的提示符可以与从先前层继承的提示符标记交互，从而学习到用于模型预测的更有效的指令。

缺点：输入序列这种长度的增加使得输入级提示学习对具有不同多模态token长度的数据集比较敏感，这可能不利于某些多模态下游任务

注意级提示
另一种方法是用提示修改（prompts）MSA层的输入。在上图的下面所示，本文将提示符拆分为两个子提示符
、
，它们具有相同的序列长度
，并将它们分别添加到键向量（key）和值向量(value)的前面。作者将MSA层的查询（query）、键(key)和值(value)表示为：
其中
是MSA层的投影权重。然后可以将注意级提示的提示函数(prompt function)定义为：
从transformer注意机制的角度来看，注意级提示提供了另一种指导预训练模型的方法。

由于提示符(prompts)不附加到查询(query)向量，因此输出序列长度与输入序列长度保持相同。

多层提示和附加提示的位置
背景：多模态变换器的不同层具有不同的特征嵌入上下文，并且每层的提示效果可能不同。在自注意机制下，来自不同模态的输入token与transformer层紧密融合。

意义：也就是说，早期层可能比更深层具有更多来自不同模态的特征，深层的特征与关于任务目标的多模态tokens很好地融合。这促使探索最合适的位置来附加缺失感知提示。

方法和结果：本文引入了提示符的多层扩展，其中
是附加到transformer中第i层的输入序列（输入级）或MSA层（注意级）的提示符，
是具有提示符的层的总数。请注意，我们简单地假设MSA层的选定索引是连续的。

与提示符（prompts）附加到整个层或仅第一层情况下相比，我们经验地发现前半部分层是附加提示符（prompts）最佳位置：从第一层开始
，
。

局限性和未来工作
不能从多模态输入中恢复缺失的信息
当面对模态较多的场景时，提示的数量可能会出现二次增长
7.Multimodal Learning with Transformers: A Survey
本文主要涉及5个方面：（1）多模态学习，大背景（2）几何角度回顾（3）应用回顾（4）模型研究挑战设计总结（5）展望和讨论