【缺失多模态】【论文翻译】Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling

量子-Alex

于 2024-09-11 16:25:25 发布

阅读量1k

点赞数 17

分类专栏：多视图学习&多模态学习文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_44184852/article/details/142135175

版权

多视图学习&多模态学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling
CVPR 2023
在这里插入图片描述

0.论文摘要和信息

摘要

多模态模型需要解决的模态缺失问题是关键的，但也不是微不足道的。目前旨在处理多模态任务中缺失模态问题的方法，要么仅在评估期间处理缺失模态，要么训练单独的模型来处理特定的缺失模态设置。此外，这些模型是为特定任务设计的，因此，例如，分类模型不容易适应分割任务，反之亦然。在本文中，我们提出了共享特定特征建模（ShaSpec）方法，该方法比解决上述问题的竞争方法更简单、更有效。ShaSpec旨在通过学习共享和特定的特征来更好地表示输入数据，从而在训练和评估期间利用所有可用的输入模态。这是通过依赖于基于分布对齐和域分类的辅助任务以及残余特征融合过程的策略来实现的。此外，ShaSpec的设计简单性使其能够轻松适应多种任务，如分类和分割。在医学图像分割和计算机视觉分类上进行了实验，结果表明ShaSpec远远优于竞争方法。例如，在BraTS2018上，ShaSpec在增强肿瘤方面将SOTA提高了3%以上，在肿瘤核心方面提高了5%，在整个肿瘤方面提高了3%。

作者信息

Hu Wang∗, Yuanhong Chen∗, Congbo Ma∗, Jodie Avery∗, Louise Hull∗, Gustavo Carneiro◦
∗The University of Adelaide, Adelaide, Australia
◦Centre for Vision, Speech and Signal Processing, University of Surrey, UK

代码地址

ShaSpec

1.引言

最近，多模态学习在计算机视觉和医学图像分析中都备受学术界和工业界的关注。音频、图像和短视频正在成为常见的媒体类型，在许多不同的应用中用于多种类型的模型预测,如声源定位 [6]、自动驾驶车辆[32]以及视觉和语言应用[28,33]。同样，在医学领域，结合不同的模式来提高诊断准确性变得越来越重要[9,29]。例如，磁共振成像（MRI）是用于脑肿瘤检测的常用工具，其不仅仅依赖于一种类型的MRI图像，而是依赖于多种模态（即Flair、T1、T1对比增强和T2）。然而，上述多模态方法通常要求训练和评估的所有模态的完整性，限制了它们在现实世界中的适用性，当训练和测试期间可能丢失模态子集时，模态缺失挑战。

这种挑战促使计算机视觉[20]和医学图像分析[5,8,13,25]社区研究缺失模态多模态方法。王等人[31]提出了一种用于缺失模态脑肿瘤分割的对抗性协同训练网络。他们特别引入了一种“专用”训练策略，该策略由一系列独立模型定义，这些模型专门针对每种缺失情况进行训练。关于所有先前方法的另一个有趣的点是，它们是专门为（计算机视觉）分类[20]或（医学成像）分割[5, 8, 13, 25]开发的，这使得它们扩展到多个任务具有挑战性。

在本文中，我们提出了一种具有缺失模态的多模型学习方法，称为共享特定特征建模（ShaSpec），它可以处理训练和测试中的缺失模态，以及专用训练和非专用训练。非专用训练是指训练一个模型来处理不同的缺失模态组合。此外，与以前的模型相比，ShaSpec设计了一个相当简单和更有效的架构，该架构探索了众所周知的辅助任务（例如，多模态特征的分布对齐和域分类），这使得ShaSpec能够容易地适应分类和分割任务。主要贡献有：

•一种极其简单而有效的多模态学习使用缺失模态方法，称为共享特定特征建模（ShaSpec），它基于建模和融合共享和特定特征，以处理培训和评估中的缺失模态以及专用和非专用训练；
•据我们所知，所提出的ShaSpec是第一个缺失模态多模态方法，鉴于其设计的简单性，可以很容易地适应分类和分割任务。
我们在计算机视觉分类和医学成像分割基准上的结果表明，ShaSpec实现了最先进的性能。值得注意的是，与最近在BraTS2018上提出的竞争方法相比，我们的模型显示增强肿瘤的分割准确性提高了3%以上，肿瘤核心提高了5%，整个肿瘤提高了3%。

2.相关工作

2.1 多模态学习模型

多模态学习越来越受到研究界的关注。在医学图像分析中，窦等人[9]介绍了chilopod-shaped架构，该架构通过模态相关特征归一化和知识蒸馏目标进行优化。从将不确定性测量与多模态学习相结合的不同观点来看，通过优化低秩协方差度量，逐像素相干性[22]已被用于多模态学习。韩等人[12]设计了一种可信多视图分类器，采用Dirichlet分布对多模态不确定性进行建模，并通过Dempster规则融合特征。Wang等[29]通过跨模态随机网络预测引入了不确定性感知的多模态学习模型。

在计算机视觉中，Wang等人[30]结合通道交换和多模态学习的思想来融合特征。在视频/音频分类和检索任务上，Patrick等[23,24]提出了一种自监督学习方法，在额外数据上训练多模态模型，显著提高了模型性能。陈等人[6]设计了一个模型，通过定义可信的三图中间地带来提高视频和声源定位精度。贾等人[15]通过约束视图特定特征与视图共享特征正交，提出了一种多视图学习模型。尽管相对于先前的方法提供了一些改进，但这种正交性约束相当强，并且没有被分类/分割目标很好地激励，因此它可能妨碍模型学习语义丰富的表示的能力。上述方法在完全模态的完备性假设下取得了有希望的结果。然而，在现实世界的场景中，模态的子集在训练和评估期间可能不可用。

特征解纠缠方法[17, 18]旨在通过学习模块化（每个潜在维度表示一个生成因素）和信息化（表示具有所有生成因素）属性的表示来模拟数据变化的因素。尽管我们学习的共享和特定特征也被设计成模块化和信息丰富的，但我们的目标不是执行图像（或其他输入数据）重建（即，ShaSpec没有任何生成模型），因为我们仅针对分类和分割任务的最佳表示的学习。这种生成要求的缺乏大大简化了我们的ShaSpec的训练。此外，Jia等人[15]学习共享和特定特征的方法基于任意正交性标准来解除特征的相关性，这可能不是学习模态特定和模态鲁棒特征的最佳方式。我们认为，优化函数通过多模态特征分布对齐学习共享特征，通过模态分类学习特定特征可能会带来更好的性能。关于上述多模态方法的一个重要注意事项是，它们是专门为特定任务设计的，并且它们从分类到分割（反之亦然）的适应并不简单，也没有实际实现。

2.2 解决多模态学习中的缺失模态

为了克服多模态学习中的模态缺失问题，已经开发了许多方法。在计算机视觉中，Ma等人[20]提出了SMIL模型，通过重建缺失模态数据特征的元学习算法来处理缺失模态。尹等人[34]旨在为不完整和未标记的多视图数据学习一个统一的子空间。在医学图像分析中，Havaei等[13]开发了一种称为HeMIS的模型，通过采用统计特征（均值和方差）进行解码来处理缺失的模态。多伦特等人[8]用多模态变分自动编码器（MVAE）扩展了HeMIS模型，该编码器基于均值和方差特征产生逐像素分类。类似地，自动编码器结构已被用于重建无监督学习方案中缺失的模态[4, 26]。多种方法[14, 25, 31]提出了从全模态模型中学习缺失的模态特征，以改善嵌入。张等人[35]介绍了一种用于多模态脑肿瘤分割的视觉Transformer model架构，旨在将所有模态的特征融合成一组综合特征。

上述模型主要集中在重建缺失的模态/特征或引入复杂的架构来解决缺失的模态问题。然而，所有这些都忽略了一个要点解决缺失的模态挑战：如何学习共享（即，模态健壮）和特定（即，模态特定）特征以优化模型性能。Chen等[5]对这一方向进行了探索，提出了一种特征解纠缠和门控融合模型，称为Robust-Mseg，用于缺失模态多模态分割。然而，根据经验，当在不同的缺失模态场景上测试时，该算法面临不稳定的性能，我们认为这是由模型的高复杂性引起的。此外，Robust-Mseg训练外观代码仅用于不同模态的重建，这与分割任务弱相关。此外，从实现角度，[5]提出的模型的外观代码生成不包含缺失模态丢弃，并且总是需要完整的模态输入，因此它不能处理训练中的缺失数据。与多模态问题类似，当处理缺失模态时，方法是专门为分类或分割而设计的，并且不能推广到这两种任务，这解释了缺乏可以处理这两种任务的方法。

我们的ShaSpec用一个相当简单但有效的架构模型解决了上面列出的问题。它不仅通过主任务，而且通过分布对齐和领域分类任务学习共享和特定特征来实现目标。包含与主要任务相关联的丰富信息的共享和特定特征最终被馈送到解码器中用于预测，其可以是分类或分割。所以，我们的模型可以处理训练/测试中的缺失模态和专用/非专用缺失模态训练。

3.方法

3.1 总体架构

让我们用 $\mathcal{M}_j = \{x^{(i)}_j\}^N_{i=1}$ 来表示 $N$ 模态数据，其中 $x^{(i)}_j ∈ \mathcal{X}$ 表示第 $j$ 个数据样本，上标 $(i)$ 索引模态。为了简化符号，当信息从上下文中清楚时，我们省略下标 $j$ 。每个集合 $\mathcal{M}$ 的标签由 $\mathcal{Y}$ 表示，其中 $\mathcal{Y}$ 表示分割映射或分类类别的空间。该模型由一个由 $f_{θ^{sha}} : \mathcal{X} → \mathcal{R}$ 表示的共享编码器、由 $f^{(i)}_{θ^{spec}} : \mathcal{X} → \mathcal{S}$ 表示的 $i ∈ \{1, ..., N \}$ 的特定编码器、一个特征投影层 $f^{(i)}_{θ^{proj}} : \mathcal{X} * \mathcal{S}→\mathcal{F}$ 和一个解码器 $f_{θ^{dec}} : \mathcal{F}^N → \mathcal{Y}$ 组成。如图1和图2所示，在利用完整模态或缺失模态进行训练和评估时，架构遭受轻微修改。请注意，ShaSpec模型适用于分割和分类，但图1和图2中的解码器仅适用于分割。为了分类，融合的特征被馈送到完全连接(FC)层中。下面，我们解释了完整和缺失模式的评估和训练流程。该方法适用于专门和非专门训练。

在这里插入图片描述
图1。ShaSpec的全模态训练和评估。所有模态 $\{x^{(i)}\}^N_{i=1} ∈ \mathcal{M}$ 通过一个共享编码器和单个特定编码器，以分别产生共享特征 $\{r^{(i)}\}^N_{i=1}$ 和特定特征 $\{s^{(i)}\}^N_{i=1}$ 。然后，以残差学习方式，将共享特征和特定特征与线性投影 $f_{θ^{spec}}(·)$ 融合，以获得用于解码的融合特征 $\{f^{(i)}\}^N_{i=1}$ 。蓝色虚线箭头表示不同的目标函数。

在这里插入图片描述
图2。ShaSpec的缺失模态训练和评估。在不失一般性的情况下，我们假设 $x^{(n)}$ 缺失，其中 $n$ 可以是 $1, 2, ..., N$ 。对于可用的模态 $x^{(1)}, ..., x^{(n−1)}, x^{(n+1)}, ..., x^{(N)}$ ，以与全模态相同的方式提取共享特定融合特征 $f^{(1)}, ..., f^{(n−1)}, f^{(n+1)}, ..., f^{(N)}$ 。但是对于缺失模态数据 $x^{(n)}$ ，融合特征 $f^{(n)}$ 是经由缺失模态特征生成过程从可用的共享特征 $r^{(1)}, ..., r^{(n−1)}, r^{(n+1)}, ..., r^{(N)}$ 生成的。蓝色虚线箭头表示不同的目标函数。

3.2 完整模式和缺失模式的评估

如图1所示，在全模态训练/评估中，该过程从共享和特定分支运行开始并行，与

在这里插入图片描述

对于 $i ∈ \{1, ..., N \}$ 。然后，在残差融合过程中，共享特征和特定特征在投影层的输入处被级联，投影层的输出作为残差添加到共享特征，以形成语义丰富的模态嵌入，如下所示：

在这里插入图片描述

然后，最终的解码器接受所有嵌入以产生输出，其中

在这里插入图片描述
其中 $\tilde{y} ∈ \mathcal{Y}$ 。上述模型的直觉是，在从每个模态中提取共享和特定特征后，特定特征 $\{s^{(i)}\}^N_{i=1}$ 呈现模态异构表示，而共享特征 $\{r^{(i)}\}^N_{i=1}$ 捕获模态之间的一致特征。

当输入模态的子集丢失时，则模型架构改变，如图2所示。在不失一般性的情况下，让我们假设第 $n$ 个模态 $x^{(n)}∈ \mathcal{M}$ 缺失。对于所有其他不缺失的可用模态，即 $\{x^{(i)}\}^N_{i=1,i \neq n}$ ，提取 $\{f^{(i)}\}^N_{i=1,i \neq n}$ 的过程与公式(1)中的完整模态相同，但是对于缺失的模态数据，我们通过缺失模态特征生成过程直接从其他可用模态生成嵌入 $f^{(n)}$ ，定义为

在这里插入图片描述

然后用等式(3)中的解码器产生模型输出。当我们有一个以上但少于N个缺失模态时，我们只需使用等式(4)从可用的模态中生成它们的特征以及在求和之前调整因子 $\frac{1}{N −1}$ 。

3.3 完整模式和缺失模式的训练

对于模型训练，除了优化主要任务（分割或分类）之外，我们还引入了两个辅助任务，域分类和分布对齐，分别用于特定和共享特征表示的学习。

3.3.1 域分类目标

受[10]中域自适应技术的启发，我们提出采用域分类目标（DCO）进行特定特征学习。直觉是，如果来自某个模态的特定特征可以用于对其域进行分类（例如，在脑肿瘤分割中，域可以是Flair、T1、T1对比增强或T2），那么这些特定特征应该包含特定于该模态的有价值的信息。对于域分类，交叉熵（CE）损失用于所有可用的模态。形式上，我们有：

在这里插入图片描述
其中 $t^{(i)} ∈ \{0, 1\}^N$ 是独热模态标签， $1$ 在第 $i$ 个位置， $0$ 在其他地方， $s^{(i)}_j$ 表示计算的第 $j$ 个训练样本的第 $i$ 个模态特定特征来自公式(1)（注意，如果模态 $n$ 缺失， $i ∈ \{1, ..., n − 1, n + 1, ..., N \}$ ）， $f_{θ^{dco}} : \mathcal{S} → ∆^{N−1}$ ，其中 $^{N−1}$ 表示具有 $N$ 个类的概率单纯形， $\mathcal{D} = {(\mathcal{M}_j , y_j )}^{|\mathcal{D}|}_{j=1}$ 是训练集。

3.3.2 分布对齐目标

分布对齐目标（DAO）是通过试图通过最小化CE损失来混淆域分类器来实现的：

在这里插入图片描述

其中 $u^{(i)} = \frac{1}{N}$ 是所有模态 $i ∈ \{1, ..., N \}$ 的均匀分布（注意，如果模态 $n$ 缺失， $i ∈ \{1, ..., n − 1, n + 1, ..., N \}$ ）， $f_{θ^{dao}} : \mathcal{R} → ∆^{N−1}$ 是共享特征模态分类器。在公式(6)，如果分类结果不能使用共享特征 $r^{(i)}_j$ 将第 $i$ 个模态与其他模态区分开来，那么这是鲁棒的共享特征表示。

该分布对齐目标的另一个选择是最小化由共享特征表示产生的概率之间的Kullback-Leibler散度（KL散度）。为了降低计算复杂度，我们通过简单的线性投影将特征投影到低维空间上，如下所示：

在这里插入图片描述

其中 $f_{θ^{dao}}(·)$ 是为softmax函数 $σ (\cdot)$ 产生输入的线性投影， $K L (\cdot)$ 是KullbackLeibler散度算子。DAO的另一个选项是成对特征相似性，使用

在这里插入图片描述
其中 $_p$ 表示p-范数算子。在消融研究中，我们测试了不同的分布对齐目标。

3.3.3 总体目标

除了上述DCO和DAO目标之外，主要任务的目标由 $\mathcal{l}_{task}(.)$ 表示（例如，用于分类的交叉熵损失或用于分割的Dice损失）。最小化的总体目标是：
在这里插入图片描述

其中 $Θ = \{θ^{sha}, θ^{spec}, θ^{proj}, θ^{dao}, θ^{dco}, θ^{dec}\}$ ； $α$ 和 $β$ 是不同目标函数之间的权衡因子。在消融研究中，我们测试了 $α$ 和 $β$ 的多个值。

当处理训练中的缺失模态 $n$ 时，缺失模态特征 $f^{(n)}$ 的计算遵循等式(4)。这允许优化 $\mathcal{l}_{task}(.)$ 对于 $l_{dao}(.)$ 和 $l_{dco}(.)$ ，省略了缺失模态特征 $r^{(n)}_j$ 和 $s^{(n)}_j$ 的损失。因此，我们提出的框架可以无缝地处理训练和评估中缺失的模态问题。

4.实验

4.1 数据集

我们在两个数据集上用缺失模态方法测试了我们的多模态学习，这两个数据集是用于医学图像分割的BraTS2018和用于计算机视觉分类的Audiovision-MNIST。BraTS2018分割挑战数据集[1, 21]被用作具有缺失模态脑肿瘤子区域分割基准的多模态学习，其中子区域是增强肿瘤（ET）、肿瘤核心（TC）和整个肿瘤（WT）。BraTS2018包含3D多模态大脑MRI，包括Flair、T1、T1对比增强（T1c）和T2，经验丰富的成像专家对GT进行了注释。它包括285例用于训练（210例高级别胶质瘤和75例低级别胶质瘤）和66例用于评估。训练集的GT是公开的，但是验证集的注释是隐藏的，需要在线评估。

在线评估

我们的计算机视觉分类缺失模态实验是在Audiovision-MNIST数据集上进行的[27]。Audiovision-MNIST是一个多模态数据集，由1500个音频和图像文件样本组成。数字0到9的图像大小为28 × 28，来自MNIST数据集[16]。音频数据集包含从自由口语数字数据集中收集的1500个音频文件。对于音频模态的表示，采用梅尔频率倒谱系数（MFCCs）将每个音频样本转换为20 × 20 × 1的大小。在[20]之后，根据官方发布的code，我们将数据集分为70%用于训练，30%用于评估。

自由口语数字数据集

官方发布的code

4.2 实现细节

ShaSpec模型有一个简单的训练过程，没有太多的超参数调整。两个数据集的实现细节描述如下。

BraTS2018

BraTS2018：我们采用3D UNet（具有3D卷积和归一化）作为我们的主干网络，其中共享和特定特征的融合发生在UNet结构的底部。采用Nesterov动量[3]为0.99的随机梯度下降优化器进行优化。学习速率在开始处设置为 $10^{−2}$ 并随着余弦退火策略而降低[19]。在模型的非专用训练期间，模态被随机丢弃以模拟模态缺失的情况。对于模型的专用训练，用于训练的缺失模态与评估中的缺失模态相同。ShaSpec模型在没有模型选择的情况下，使用所有训练数据训练180,000次迭代。我们选择L1损失作为我们的分布对齐目标，并在等式(9)中设置 $α = 0.1$ ， $β = 0.02$ 。然后，我们使用ShaSpec制作的分割掩码进行官方在线评估。当我们运行具有这种增强的模型时，我们运行具有和不具有预测平滑增强的ShaSpec来改善分割结果。我们将其标记为“ShaSpec*”。这种增强连接了周围体素内的组件，两个跳跃被认为是邻居。此外，体素少于某个阈值的小区域被消除。通过这样做，分散的小区域被取消，这通常导致分割的改进。

Audiovision-MNIST

对于Audiovision-MNIST数据集上的模型训练，我们遵循SMIL论文[20]，删除一定百分比的声音模态数据，并训练所有模型60个epochs，以保持公平的比较。我们采用了SMIL的图像和声音编码器，由具有一系列卷积层和具有batch norm和dropout的全连接(FC)层的网络组成。对于ShaSpec架构的其余部分，在融合两个模态特征后，采用2个带dropout的FC层进行分类。共享和特定特征的融合发生在FC层之前的层。具有 $10^{−2}$ 权重衰减的Adam优化器用于模型训练。初始学习率设置为 $10^{−3}$ ，每20个epochs降低10%。

模型性能的评估依赖于BraTS2018的Dice分数和Audiovision-MNIST的分类准确性，其中训练和评估是在一个3090Ti NVIDIA显卡上执行的。

4.3 分割结果

BraTS2018上的非专用训练（训练模型一次，并在缺失模态的不同组合上进行评估）的实验结果如表1所示。它将ShaSpec与当前最先进的（SOTA）方法进行了比较，包括U-HeMIS[13]、U-HVED[8]、Robust-MSeg（RbSeg） [5]和mmFormer（mmFm）[35]。我们提出的ShaSpec显示了几乎所有不同组合和肿瘤类型的最佳和次佳结果（48个结果中45个结果中的最佳），如表1的红色和蓝色所示。此外，提出的ShaSpec的性能大大优于竞争模型。例如，当只有T1可用时，ShaSpec在增强肿瘤方面超过第二好模型（mmFormer）8.47%，在肿瘤核心方面超过6.63%，在整个肿瘤方面超过5.92%。类似地，当只有T1、T1c和T2可用时，我们观察到增强肿瘤的改善为1.62%，肿瘤核心的改善为3.79%，肿瘤核心的改善为3.76%在整个肿瘤上。预测平滑度增强进一步提升了ShaSpec的性能。平均而言，与第二好的竞争方法相比，我们的模型在增强肿瘤方面获得了3.23%的性能增益，在肿瘤核心方面获得了4.91%的性能增益，在整个肿瘤方面获得了3.32%的性能增益。此外，在表1中。注意，对于增强肿瘤分割，预测平滑度增强是有影响的，当只有Flair可用时，预测平滑度增强从43.52%提高到45.11%，当T1和T1c可用时，预测平滑度增强从75.76%提高到78.26%。这可能是由预测用于增强肿瘤的分散分割掩模引起的。此外，T1c比其他方式更有助于增强肿瘤。例如，当添加T1c作为可用模态时，模型的性能大大提高。对于ShaSpec，我们仅使用T1c的比例为73.29%，而仅使用Flair的比例为43.52%。这种观察结果与T1c中肿瘤增强清晰可见，但水肿不可见的知识相呼应[5]。表2中显示了类似的结果，其中ShaSpec在大多数情况下优于KD-Net[14]和ACN[31]（我们在12种情况中的11种情况下表现最好）。平均而言，我们的模型在增强肿瘤方面超过第二好的竞争方法2.46%，在肿瘤核心方面超过1.54%，在整个肿瘤方面超过0.58%。

在这里插入图片描述
表1。非专用训练的BraTS2018上分割Dice分数（标准化为100%）的模型性能比较。ShaSpec和ShaSpec*是所提出的模型，其中ShaSpec*是具有预测平滑度增强的模型。特定类型肿瘤内每一列的最佳和次佳结果分别为红色和蓝色。

在这里插入图片描述
表2.专门训练的BraTS2018上分割Dice分数（标准化为100%）的模型性能比较。

4.4 分类结果

按照SMIL设置[20]，我们在部分和全模态子数据集（图像和音频）上训练ShaSpec。更具体地，通过将音频模态率设置为{5%、10%、15%、20%}来形成完全缺失模态子数据集，其定义了用于训练的可用音频数据的比例。对于该设置，视觉模态数据是完全可用的。在评估阶段，只有图像被输入到模型中。我们将我们的模型与Auto-encoder[2]和SMIL[20]进行了比较，Auto-encoder是一种基于生成对抗网络的模型[11]，一种提取多模态知识来训练缺失模态模型的方法[25]。具有单一模态（仅图像）的LeNet[16]网络作为下限，并且在SMIL之后，用全模态（所有图像和音频）训练的模型作为上限。如表3所示。ShaSpec表现良好，特别是在极端缺失模态（即，小音频速率）下，我们的模型实现了93.33%的准确率，而第二好模型在音频速率5%时实现了92.89%的准确率。随着音频速率的增加，所有型号的性能都有所提高，ShaSpec仍然优于所有其他型号。我们认为这是由于ShaSpec从所有可用的模态中提取信息丰富的共享特定表示的杰出能力，以及使用共享表示来弥补缺失的模态。

在这里插入图片描述
表3.Audiovision-MNIST数据集上缺失模态分类准确性的模型性能比较（通过设置不同的可用音频速率）。下限（LowerB）是用单一模态（仅图像）训练的LeNet[16]网络。上限（UpperB）是用所有数据模态（所有图像和音频）训练的模型。每行的最佳结果以粗体显示。

为了检查所提出的ShaSpec的缺失模态表示学习，我们针对图像和音频的不同速率（15%、20%、50%、70%和100%的速率）训练模型，并用两种模态进行测试。将ShaSpec模型与图3中的SMIL进行了比较。对于所有设置，我们的模型总是优越的，如条形图所示。

在这里插入图片描述

图3.在Audiovision-MNIST上具有不同丢失模态数据率（图像和音频）的模型性能。

4.5 分析

DAO损失函数的选择

如第3.3.2节所述，DAO可以依赖于预测和GT之间的CE损失、KL散度损失或p-范数距离损失。BraTS2018的比较见表4用于非专用训练，其中只有T1可用于评估。结果表明，DAO的不同选择表现相似，但L1损耗的结果最好，其次是KL散度损失，而CE损失和MSE的表现不如其他损失。

在这里插入图片描述

表4.用于非专用训练的不同分布对准目标的模型消融，其中只有T1可用于BraTS2018上的测试。

公式（9）的灵敏度对α和β

通过将 $α$ 和 $β$ 值设置为{0、0.02、0.1、0.5、0.7、1}，结果示于图4中。在测试 $α$ 值时，我们将 $β$ 设置为0.02；当测试 $β$ 时，我们将 $α$ 设置为0.1。当 $α = β = 1$ 时，结果显著下降，这可以用不同损失函数的尺度来解释，其中过大的权重因为辅助损失可能会干扰主任务的梯度流。通常， $α = 0.1$ 和 $β = 0.02$ 产生最佳结果。辅助任务权重的小值有助于整个过程，但不会干扰主要任务优化。有趣的是，当 $α = 0$ （仅学习特定特征）时，模型仍然可以通过特定特征的简单串联在一定程度上分割肿瘤，这意味着特定特征包含丰富的信息。当 $β = 0$ （仅学习共享特征）时也可以得出类似的结论。

在这里插入图片描述
图4.方程(9) $α$ 和 $β$ 的灵敏度对于非专用训练，其中只有T1可用于BraTS2018上的评估。

计算比较

我们在模型参数数量、训练/推理迭代时间和GPU内存使用方面比较了ShaSpec和SMIL（使用Ma等人发布的官方代码），其中两个模型都以4的批量大小进行训练/测试，我们估计了在一个3090 GPU上30次迭代的平均时间消耗，以便进行公平的比较。SMIL有0.33 M的参数，训练迭代和测试需要0.1309 s和0.0019 s，并且在训练和测试期间，GPU内存使用从1430MiB开始，攀升到24268MiB，然后在最后抛出“内存不足”错误。另一方面，ShaSpec模型参数为0.22 M，模型训练迭代耗时0.0257 s，模型测试耗时0.0016 s，不断消耗GPU内存1421MiB。

X射线+临床文本的附加分类实验

我们在OpenI[7]上进行了额外的分类实验。我们重组了OpenI数据集，仅将正面图像视为视觉输入，并将报告中的“比较”和“发现”标签视为文本输入。此外，我们将多标签胸部X射线分类重新表述为二元分类问题（无论是否存在任何胸部问题）。该数据集总共包含3851对视觉-文本样本，这些样本被分割80%用于训练，20%用于评估。我们采用ResNet50作为视觉主干，采用具有128个隐藏神经元的LSTM模型作为文本主干。单模态ResNet50仅在图像输入的情况下获得AUC=0.77；并且单模态LSTM仅具有文本输入的AUC=0.86。用全模态训练/评估的具有简单特征级联的基线多模态模型达到AUC=0.90。当用30%缺失图像模态训练并且仅在文本上评估时，它达到AUC=0.87。我们的ShaSpec模型显示出比基线模型更好的性能，AUC=0.89（接近全模态）。

共享和特定特征可视化

在这里插入图片描述

图5.来自BraTS2018上所有训练数据的四种模式的共享和特定特征的t-SNE可视化。四种模态的共享特征由不同颜色的“x”表示，而四种模态的特定特征由不同颜色的“o”表示。

5.结论

在本文中，我们提出了简单但有效的ShaSpec方法来解决训练/测试中缺少模态的多模态学习，用于专用/非专用训练，并应用于分割和分类任务。根据经验，它在不同的任务和设置中远远优于最先进的技术，因为语义丰富的共享和特定的学习特征与主要任务密切相关。通过共享和特定特征空间的tSNE可视化，我们进一步验证了该方法的有效性。将来，我们将在其他任务（例如回归）和数据集上测试所提出的ShaSpec方法，以进一步验证其通用性和有效性。

6.引用文献

[1] Spyridon Bakas, Mauricio Reyes, Andras Jakab, Stefan Bauer, Markus Rempfler, Alessandro Crimi, Russell Takeshi Shinohara, Christoph Berger, Sung Min Ha, Martin Rozycki, et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. arXiv preprint arXiv:1811.02629, 2018. 5
[2] Pierre Baldi. Autoencoders, unsupervised learning, and deep architectures. In Proceedings of ICML workshop on unsupervised and transfer learning, pages 37–49. JMLR Workshop and Conference Proceedings, 2012. 7
[3] Aleksandar Botev, Guy Lever, and David Barber. Nesterov’s accelerated gradient and momentum as approximations to regularised update descent. In 2017 International Joint Conference on Neural Networks (IJCNN), pages 18991903. IEEE, 2017. 5
[4] Agisilaos Chartsias, Thomas Joyce, Mario Valerio Giuffrida, and Sotirios A Tsaftaris. Multimodal mr synthesis via modality-invariant latent representation. IEEE transactions on medical imaging, 37(3):803–814, 2017. 2
[5] Cheng Chen, Qi Dou, Yueming Jin, Hao Chen, Jing Qin, and Pheng-Ann Heng. Robust multimodal brain tumor segmentation via feature disentanglement and gated fusion. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 447–456. Springer, 2019. 1, 3, 6, 7
[6] Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, and Andrew Zisserman. Localizing visual sounds the hard way. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16867–16876, 2021. 1, 2
[7] Dina Demner-Fushman, Marc D Kohli, Marc B Rosenman, Sonya E Shooshan, Laritza Rodriguez, Sameer Antani, George R Thoma, and Clement J McDonald. Preparing a collection of radiology examinations for distribution and retrieval. Journal of the American Medical Informatics Association, 23(2):304–310, 2016. 8
[8] Reuben Dorent, Samuel Joutard, Marc Modat, S ́ ebastien Ourselin, and Tom Vercauteren. Hetero-modal variational encoder-decoder for joint modality completion and segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 74–82. Springer, 2019. 1, 2, 6
[9] Qi Dou, Quande Liu, Pheng Ann Heng, and Ben Glocker. Unpaired multi-modal segmentation via knowledge distillation. In IEEE Transactions on Medical Imaging, 2020. 1, 2
[10] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In International conference on machine learning, pages 1180–1189. PMLR, 2015. 4
[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Communications of the ACM, 63(11):139–144, 2020. 7
[12] Zongbo Han, Changqing Zhang, Huazhu Fu, and Joey Tianyi Zhou. Trusted multi-view classification. arXiv preprint arXiv:2102.02051, 2021. 2
[13] Mohammad Havaei, Nicolas Guizard, Nicolas Chapados, and Yoshua Bengio. Hemis: Hetero-modal image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 469–477. Springer, 2016. 1, 2, 6
[14] Minhao Hu, Matthis Maillard, Ya Zhang, Tommaso Ciceri, Giammarco La Barbera, Isabelle Bloch, and Pietro Gori. Knowledge distillation from multi-modal to monomodal segmentation networks. In International Conference on Medical Image Computing and Computer-Assisted Intervention, pages 772–781. Springer, 2020. 2, 7
[15] Xiaodong Jia, Xiao-Yuan Jing, Xiaoke Zhu, Songcan Chen, Bo Du, Ziyun Cai, Zhenyu He, and Dong Yue. Semi-supervised multi-view deep discriminant representation learning. IEEE transactions on pattern analysis and machine intelligence, 43(7):2496–2509, 2020. 2
[16] Yann LeCun, L ́ eon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 5, 7
[17] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In Proceedings of the European conference on computer vision (ECCV), pages 35–51, 2018. 2
[18] Xiao Liu, Pedro Sanchez, Spyridon Thermos, Alison Q O’Neil, and Sotirios A Tsaftaris. Learning disentangled representations in the imaging domain. Medical Image Analysis, page 102516, 2022. 2
[19] Ilya Loshchilov and Frank Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016. 6
[20] Mengmeng Ma, Jian Ren, Long Zhao, Sergey Tulyakov, Cathy Wu, and Xi Peng. Smil: Multimodal learning with severely missing modality. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 23022310, 2021. 1, 2, 5, 6, 7
[21] Bjoern H Menze, Andras Jakab, Stefan Bauer, Jayashree Kalpathy-Cramer, Keyvan Farahani, Justin Kirby, Yuliya Burren, Nicole Porz, Johannes Slotboom, Roland Wiest, et al. The multimodal brain tumor image segmentation benchmark (brats). IEEE transactions on medical imaging, 34(10):1993–2024, 2014. 5
[22] Miguel Monteiro, Lo ̈ıc Le Folgoc, Daniel Coelho de Castro, Nick Pawlowski, Bernardo Marques, Konstantinos Kamnitsas, Mark van der Wilk, and Ben Glocker. Stochastic segmentation networks: Modelling spatially correlated aleatoric uncertainty. Advances in Neural Information Processing Systems, 33:12756–12767, 2020. 2
[23] Mandela Patrick, Yuki M Asano, Polina Kuznetsova, Ruth Fong, Joao F Henriques, Geoffrey Zweig, and Andrea Vedaldi. Multi-modal self-supervision from generalized data transformations. arXiv preprint arXiv:2003.04298, 2020. 2
[24] Mandela Patrick, Po-Yao Huang, Ishan Misra, Florian Metze, Andrea Vedaldi, Yuki M Asano, and Jo ̃ ao F Henriques. Space-time crop & attend: Improving crossmodal video representation learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 10560–10572, 2021. 2
[25] Yan Shen and Mingchen Gao. Brain tumor segmentation on mri with missing modalities. In International Conference on Information Processing in Medical Imaging, pages 417–428. Springer, 2019. 1, 2, 7
[26] Gijs van Tulder and Marleen de Bruijne. Learning crossmodality representations from multi-modal images. IEEE transactions on medical imaging, 38(2):638–648, 2018. 2
[27] Valentin Vielzeuf, Alexis Lechervy, St ́ ephane Pateux, and Fr ́ ed ́ eric Jurie. Centralnet: a multilayer approach for multimodal fusion. In Proceedings of the European Conference on Computer Vision (ECCV) Workshops, pages 0–0, 2018. 5
[28] Hu Wang, Qi Wu, and Chunhua Shen. Soft expert reward learning for vision-and-language navigation. In European Conference on Computer Vision, pages 126–141. Springer, 2020. 1
[29] Hu Wang, Jianpeng Zhang, Yuanhong Chen, Congbo Ma, Jodie Avery, Louise Hull, and Gustavo Carneiro. Uncertainty-aware multi-modal learning via crossmodal random network prediction. arXiv preprint arXiv:2207.10851, 2022. 1, 2
[30] Yikai Wang, Wenbing Huang, Fuchun Sun, Tingyang Xu, Yu Rong, and Junzhou Huang. Deep multimodal fusion by channel exchanging. Advances in Neural Information Processing Systems, 33:4835–4845, 2020. 2
[31] Yixin Wang, Yang Zhang, Yang Liu, Zihao Lin, Jiang Tian, Cheng Zhong, Zhongchao Shi, Jianping Fan, and Zhiqiang He. Acn: Adversarial co-training network for brain tumor segmentation with missing modalities. In International Conference on Medical Image Computing and ComputerAssisted Intervention, pages 410–420. Springer, 2021. 1, 2, 7
[32] Zhangjing Wang, Yu Wu, and Qingqing Niu. Multi-sensor fusion in automated driving: A survey. Ieee Access, 8:28472868, 2019. 1
[33] Qi Wu, Peng Wang, Chunhua Shen, Anthony Dick, and Anton Van Den Hengel. Ask me anything: Free-form visual question answering based on knowledge from external sources. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4622–4630, 2016. 1
[34] Qiyue Yin, Shu Wu, and Liang Wang. Unified subspace learning for incomplete and unlabeled multi-view data. Pattern Recognition, 67:313–327, 2017. 2
[35] Yao Zhang, Nanjun He, Jiawei Yang, Yuexiang Li, Dong Wei, Yawen Huang, Yang Zhang, Zhiqiang He, and Yefeng Zheng. mmformer: Multimodal medical transformer for incomplete multimodal learning of brain tumor segmentation. arXiv preprint arXiv:2206.02425, 2022. 2, 6

量子-Alex

关注

17
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
【缺失多模态】【论文翻译】Multi-modal Learning with Missing Modality via Shared-Specific Feature Modelling

多模态模型需要解决的模态缺失问题是关键的，但也不是微不足道的。目前旨在处理多模态任务中缺失模态问题的方法，要么仅在评估期间处理缺失模态，要么训练单独的模型来处理特定的缺失模态设置。此外，这些模型是为特定任务设计的，因此，例如，分类模型不容易适应分割任务，反之亦然。在本文中，我们提出了共享特定特征建模（ShaSpec）方法，该方法比解决上述问题的竞争方法更简单、更有效。ShaSpec旨在通过学习共享和特定的特征来更好地表示输入数据，从而在训练和评估期间利用所有可用的输入模态。
复制链接

扫一扫