多模态特征融合方法调研

多模态特征融合方法调研

Jeff Dean: 我认为,在多任务学习和多模态学习方面会有很大进展,解决更多的问题。我觉得那会很有趣。

​ 多模态学习被越来越多地应用于深度学习,尤其是在医学影像方面,对于同一个病症的不同诊断方式为医生提供了多角度的参考。基于深度学习的医学影像处理也呈现出多模态的发展趋势,而如何合理地利用和融合不同模态的特征是一个重要的问题。此调研整理了这篇博客在Fusion方面的思路

目录
  1. 多模态融合的总体思路

  2. TFN和LMF

  3. 基于attention的fusion

(一)多模态融合的总体思路

​ 多模态的特征融合方法总体上可以分为像素级、特征级和决策级。其中特征级别的融合是研究的重点。决策级别的融合(如voting)常常作为比赛刷榜的trick,有稳定的效果但提升的空间有限。

(二)TFN和LMF
TFN

​ 该方法在Tensor Fusion Network for Multimodal Sentiment Analysis中被提出,用于情感分类的任务。

​ 考虑一个情感分类的问题,经过特征提取获得了三个feature vector(视觉、声音、语言),对于三个特征向量,求得他们的张量外积。(关于张量的计算参考Xinyu Chen博士的知乎文章

在这里插入图片描述

​ 注意在计算外积的时候对feature vector进行了补1的操作,目的是让融合的feature volume中也具有单一模态的特征信息如下图。在张量的外积计算完成之后,需要将其通过一个线性层变成所需要的维度的向量,表达如下。其中W是权重参数,b是bias。

在这里插入图片描述
在这里插入图片描述

​ 作者称,Tensor Fusionis在数学上是由外部乘积形成的,因此它没有可学习的参数,并且我们从经验上观察到,尽管输出张量是高维的,但过拟合的机会很小。

LMF

​ 这个工作来自Efficient Low-rank Multimodal Fusion with Modality-Specific Factors,是对TFN方法的改进。

​ 作者认为,在TFN方法中,由于特征表征Z是由多个特征向量外积得到(扩充了维度),那么最后权重张量W中要学习的参数数量也将成倍增加。 这不仅引入了大量计算,而且使模型面临过度拟合的风(两片文章的作者都有CMU的Amir Zadeh团队参与,上一篇说不会过拟合这篇又说会过拟合,打自己的脸一直可以的哈哈哈

​ 改进的low-rank融合方法如下:

在这里插入图片描述

​ 总体思想就是对权重矩阵W进行分解,从而避免了的张量的外积,而是对每个feature vector进行独立的处理之后在进行点乘(论文中给出了等价的证明),将两种方法的基本流程如下图画图参考了的bilibili up主“可能叫做小黑”的论文分享

在这里插入图片描述

(三)基于attention的fusion方法
淘宝视频的多模态方法

​ 这个工作感觉很符合我目前的需要,可惜只是阿里的一个技术分享没写paper。

​ 淘宝视频的多模态信息十分丰富,不同模态之间提供的信息内容并不是完全一致的。如何设计优秀的多模态特征融合方法,充分利用非结构化的多模态信息,将不同模态间的特征对齐到同一特征空间,使得不同模态信息之间取长补短,这是视频分类算法模型中最关键的模块。我们提出了基于Modal Attention的多模态特征融合方法。Modal Attention基于融合的特征向量预测一个模态个数维度的基于多模态联合特征的对于不同模态的重要性分布概率,这个模态分布概率与多模态融合特征做点积,得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。

在这里插入图片描述

  • 11
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值