多模态融合 Multimodal Fusion

多模态融合:

  多模态机器学习MultiModal Machine Learning (MMML),旨在通过机器学习理解并处理多种模态信息。包括多模态表示学习Multimodal Representation,模态转化Translation,对齐Alignment,多模态融合Multimodal Fusion,协同学习Co-learning等

  多模态融合Multimodal Fusion也称多源信息融合(Multi-source Information Fusion),多传感器融合(Multi-sensor Fusion)。多模态融合是指综合来自两个或多个模态的信息以进行预测的过程。在预测的过程中,单个模态通常不能包含产生精确预测结果所需的全部有效信息,多模态融合过程结合了来自两个或多个模态的信息,实现信息补充,拓宽输入数据所包含信息的覆盖范围,提升预测结果的精度,提高预测模型的鲁棒性。

一、融合方法

在这里插入图片描述
在这里插入图片描述
  推荐论文:多模态数据融合研究综述

1.1早期融合

  为缓解各模态中原始数据间的不一致性问题,可以先从每种模态中分别提取特征的表示,然后在特征级别进行融合,即特征融合。由于深度学习中会涉及从原始数据中学习特征的具体表示,从而导致有时需在未抽取特征之前就进行数据融合,因此数据层面和特征层面的融合均称为早期融合。
   特征融合实现过程中,首先提取各输入模态的特征,然后将提取的特征合并到融合特征中,融合特征作为输入数据输入到一个模型中,输出预测结果。早期融合中,各模态特征经转换和缩放处理后产生的融合特征通常具有较高的维度,可以使用主成分分析( PCA) 和线性判别分析( LDA) 对融合特征进行降维处理。
   早期融合中模态表示的融合有多种方式,常用的方式有对各模态表示进行相同位置元素的相乘或相加、构建编码器—解码器结构和用 LSTM 神经网络进行信息整合等。

1.2 晚期融合

在这里插入图片描述
  晚期融合方法也称决策级融合方法,先用不同模型对不同模态进行训练,再融合多个模型输出的结果。晚期融合方法主要采用规则来确定不同模型输出结果的结合策略,例如最大值结合、平均值结合、贝叶斯规则结合以及集成学习等结合方法。
   与早期融合相比,晚期融合可较简单地处理数据的异步性,整个系统可以随模态个数的增加进行扩展,每个模态的专属预测模型能更好地针对该模态进行建模,当模型输入缺少某些模态时也可以进行预测。然而晚期融合也存在一些缺点,如未考虑特征层面的模态相关性、实现难度更高等。

1.3 混合融合

在这里插入图片描述
  混合融合方法结合早期和晚期融合,在综合两者优点同时也增加了模型结构复杂度和训练难度。研究表明:各融合方式并无确定的优劣关系,在不同的实验条件下,可以尝试不同的融合方式以获得较好的融合结果。

1.4 联合融合

  联合融合方法是对每个模态的输入数据分别经过模态特定的编码器或特征提取器,得到单模态的表示,这些单模态表示被投影到一个共享的语义子空间。在这个共享语义子空间中,不同模态的特征可以进行联合融合、组合和进一步的处理。联合模式相比较其他模式可以使各个模态的表示在共享的语义子空间中保持一致的语义信息,使得模态之间的关系更加紧密,能够减少特征维度的冗余,提取出对多模态任务贡献较大的重要特征,从而方便进行跨模态的特征融合和计算
在这里插入图片描述

1.5 特征级融合

  特征级融合是在多模态数据输入到模型之前,将不同模态的原始数据或已从原始数据中提取的特征融合在一起,形成一个综合的表示来作为模型的输入。原始的数据蕴含不明显特征,因此原始数据和特征的融合均称为特征级融合
  每个模态的数据首先经过各自的特征提取器或直接采用原始模态信息,例如图像可以使用卷积神经网络提取特征,文本可以使用词嵌入或文本卷积神经网络提取特征,音频可以使用声学特征提取方法。然后,将从不同模态的特征中得到的表示进行融合,特征级融合最常见的方法有拼接、加法、“乘”方法和双线性融合方法
在这里插入图片描述

1.6 模型级融合

  模型级融合(model-level fusion,MLF)是通过在模型级别上将不同模态的特征信息进行融合,实现跨模态的信息交互和整合。基于深度学习模型的融合方法应用范围更广且效果更好,也是目前研究者们首选的研究方法。常用方法包括早期的多核学习方法,该类方法目前适合小数据集的融合任务,然而经过深度学习的成熟发展,深度学习方法能够应对各种融合的场景。基于模型的融合方法是基于模型层面,但根据应用场景会与特征级或决策级没有明显的界线,特征级融合和决策级融合不属于模型级融合
在这里插入图片描述

1.7 决策级融合

  决策级融合(decision-level fusion,DLF)将每个模态的独立决策结果进行数学公式规定或赋予不同结果不同的权重来得出最终的决策结果。常见的决策级融合策略包括投票法、加权平均法和多数投票法等
在这里插入图片描述

1.8 混合级融合

  混合融合方法综合特征级融合、模型级融合和决策级融合方法三种融合方式的优点,在不降低性能的同时,也可以根据应用场景的融合难易程度选择合适的组合
在这里插入图片描述

二、应用实例

2.1 基于多模态特征和多分类器融合的前列腺癌放疗中直肠并发症预测

在这里插入图片描述
  上述模型提出了一种基于多准则决策的权重分配算法来实现多模态特征和多分类器的融合。首先在分类器层面上进行第一轮融合,然后在模态层面上进行第二轮融合。因此需要为每个分类器以及每个模态(临床参数特征和剂量学特征)分配权重。权重分配后,依次实现分类器决策融合与模态信息融合

2.1.1 分类器决策融合,是对每个分类器的预测概率进行加权求和:

在这里插入图片描述
  其中, 表示单模态下各个分类器对待预测样本的预测概率值, 表示每个分类器的权重, 为当前模态下融合多分类器信息后的预测概率

2.1.2 多模态信息融合,是对单模态决策的结果进行加权求和:

在这里插入图片描述
  其中, 为每个单模态下多分类器融合的预测概率, 为分配给该模态的权重。经过以上两次融合,最终得到患者发生并发症的概率P和不发生并发症的概率(1-P)。

2.2 基于多模态特征融合的骨质疏松评估

在这里插入图片描述
  图像数据经过图像分割,问卷数据经过数据清洗等预处理后进行特征提取.针对图像数据局部相关性的特点,使用 CNN 进行特征提取; 针对问卷数据特征离散的特点,使用 DNN 进行特征提取; 然后将 2 种特征进行特征拼接后使用 DNN 进行特征融合; 最后使用Softmax 分类器进行分类输出
  图像特征包含骨骼结构信息,问卷特征包含骨质疏松影响因素的个体信息,两方面的模态信息存在一定的互补关系,有必要进行适当的特征融合
在这里插入图片描述
  目前特征融合方法有以下几种: 特征向量按照人工规则线性融合;计算多个向量相似度矩阵,按照相似度进行融合;直接拼接特征向量
在这里插入图片描述
  实验中交叉验证结果表明,多模态特征融合方法与仅单独使用图像数据或问卷数据的机器学习方法相比,分类准确率有了明显提升

2.3 多模态融合下长时程肺部病灶良恶性预测

在这里插入图片描述

  针对同一病人从早期到确诊的 CT 影像,分别提取肺结节图像的传统特征与深度特征(双模态),利用一个两层神经网络进行相关性融合;然后选取不同时期的肺结节多模态特征融合向量,利用长短期记忆网络研究各时期特征向量的变化趋势及关系,利用双向长短期记忆模型预测长时程下肺部病灶的演化趋势并确定其良恶性
  通过构建一个双层神经网络实现特征融合:输入层为传统特征与深度特征的串接,通过学习隐藏层的权值得到融合后的特征。隐藏层的节点数为融合特征的维数
在这里插入图片描述
  肺部病灶图像中特征融合问题一直是图像领域研究的热点问题,但是由于医学图像序列的特殊性,医学图像中不同特征的融合一直是重点和难点问题。如果只对提取到的特征进行特征向量的串接,势必会大大增加特征的维度,从而增大时间复杂度。因此,需要一种适应于肺部图像的特征融合策略,既要将提取到的特征进行有效的融合,又要减少融合后特征的维度,同时还要考虑不同模态的特征在融合结果中所起到的作用,以及保留多模态的相关性
  构建一个双层神经网络(包括一个隐藏层和一个Softmax层),通过设计损失函数使其最小化来训练整个网络:
在这里插入图片描述

2.4 基于随机化融合和CNN的多模态肺部肿瘤图像识别

在这里插入图片描述
使用三个不同的医学影像数据集,视为三个不同的模态信息,共同执行肺部肿瘤图像识别:
(1)利用改进的Lenet-5网络模型实现对多模态肺部肿瘤图像并行地特征提取
(2)利用随机化函数对并联的多模态特征进行融合,重建同一维度的目标特征;
(3)添加全连接层和分类层对网络进行回归训练,从而得到分类结果。

基于随机化融合的多模态卷积神经网络肺部肿瘤图像识别的具体步骤如下:
(1)数据预处理:从宁夏医科大学总医院核医学科影像检查结果数据库收集9000例肺部三个模态(CT,PET,PET/CT)的原始影像,各模态均为3000例,并通过病理检测及临床医师标记,每个模态的肺部肿瘤良性数和恶性数均为1500例.对原始的三个模态肺部良性肿瘤图像和恶性肿瘤图像分别在对应位置提取其ROI区域,并将其归一化为同样大小的实验图像,如28px*28px
(2)构建单模态CNN:通过数据处理,分别得到三个模态的样本,每个模态均为3000例数据,两类目标,将其按照一定比例划分为测试集和训练集,分别为2000例和1000例,并构造与其相对应的二进制标签y,其中肺部恶性肿瘤标记为01,良性标记为10,使用参数迁移法,将三个模态的数据及标签分别输入到卷积神经网络,并采用参数迁移法构建基于Lenet-5模型的三个单模态CNN网络,即CT-CNN,PET-CNN,PET/CT-CNN
(3)随机化融合:通过对CNN模型的微调,将构造好的三个单模态CNN全连接层的192维特征向量、相对应的权值和偏置分别提取出来,利用随机函数Y=MIN+fix(MAX * rand (M,N)),将特征向量、对应的权重及偏置分别进行随机化融合,同时遵循对应位置不变的融合规则
(4)分类识别:将融合完成的特征图进行全连接,再通过激活函数进行分类,得到分类结果,将其与预先设定的标签进行对比,得出肺部肿瘤的识别情况

在step3中,采用随机化融合方法实现特征融合:
  通过对CNN模型的微调,将构造好的三个单模态CNN全连接层的192维特征向量、相对应的权值和偏置分别提取出来,利用随机函数

  将特征向量、对应的权重及偏置分别进行随机化融合,同时遵循对应位置不变的融合规则

CNN特征提取:
在这里插入图片描述

随机化特征融合的CNN模型构建:
在这里插入图片描述

  随机化特征融合过程: 分别代表不同模态的特征矩阵, 分别表示 某一行的特征向量, 分别代表对应于 的权值, 分别表示 某一行对应的权值.在随机化融合过程中,根据同一随机化原则,将 和 进行对应位置融合,随机化融合后得到与之前同样大小的融合矩阵,再将融合后的矩阵与权值输入激活函数中,得到分类结果。

看到有友友评论需要应用案例论文,所以更新了一版,有问题可以评论交流~
相关论文知网可以下载,下载不了的可以私信我哦,也可以给我发邮件

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Slientsakke

觉得不错的话,点赞鼓励一下吧☺

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值