【论文阅读】MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast and Accurate Inference

【论文链接】https://arxiv.org/pdf/2210.12798.pdf

【代码链接】https://github.com/declare-lab/MM-Align

【发表信息】EMNLP 2022

问题动机

        现有的多模态任务主要针对完整的输入模态设置,即每种模态在训练和测试集中都是完整的或完全缺失的。然而,随机缺失的情况仍未得到充分探索。如下图a,b,每种模态在训练和测试中都是完整的或者是完全缺失的,模态输入模式中训练集和测试集之间的这种协同作用通常与现实场景相差较大,在现实场景中,有一部分数据没有并行模态序列,这可能是由于收集和预处理期间的噪声污染。换句话说,与完全存在或缺失(图 a 和 b)相比,每种模式的数据更有可能随机缺失(图 c 和 d)。本文关注到以下2个问题:
         (i) 如果训练集中的模态完整数据稀缺,则可能会出现严重的过拟合问题,尤其是当生成模型较大时;
        (ii) 基于全局注意力(即对整个序列的注意力)插补可能会带来意想不到的噪声,因为真正的对应主要存在于时间相邻的并行信号之间。

解决方法

        针对以上问题,本文提出了MM-Align框架,用于处理多模态学习中随机缺失的问题。该框架背后的核心思想是为配对模态序列模仿一些间接但信息丰富的线索,而不是直接学习恢复缺失的模态。        
        该框架由三个基本功能单元组成:1)处理主要任务的骨干网络; 2) 一个基于最优传输算法的对齐矩阵求解器,用于生成仅部分值为非零的上下文窗口样式的解决方案,以及一个相关的元学习器,用于模拟动态并在模态不变的隐藏空间中执行插补; 3) 一种去噪训练算法,优化和合并骨干网络和学习器,使它们能够在缺失模态场景中稳健地处理主要任务。

        上图为主体架构:主干网络(绿色)、对齐动态学习器(ADL,蓝色)和一个去噪训练算法,以同时优化学习器和主干网络。ADL为核心单元。受元学习思想的启发,寻求通过间接插补线索(即对齐矩阵)为缺失模态生成替代表示,而不是通过最小化重建损失来学习恢复缺失模态。.
        ADL:学习器有两个功能模块,称为对齐动力学求解器和拟合器,如上图所示。它还以两种功能模式运行,即学习和解码。当模型在完整数据上训练时,ADL 在学习模式下工作(图中用实线标记)。当其中一种模态缺失时触发解码模式,这发生在缺失分割的训练时间和整个测试时间(图中的虚线标记)。在学习模式下,求解器计算一个对齐矩阵,该矩阵提供有关两个模态序列之间时间相关性的信息。解码模式在这种模式下,学习器的行为就像一个解码器,它努力为缺失的模态序列生成有意义的替代。

        受先前数据插补工作的启发,本文设计了一种去噪训练算法,以同时提高预测准确性和插补质量。以下是去噪训练的具体流程。

实验结果

启发

        该框架背后的核心思想是为配对模态序列模仿一些间接但信息丰富的线索,而不是直接学习恢复缺失的模态。可以利用最优传输理论来学习时间模态序列之间的对齐动态,以便在模态序列缺失的情况下进行推理。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值