Multimodal Token Fusion for Vision Transformers
论文简介:
许多方法已经应用到了 Transformer 以解决单模态视觉任务,其中自注意模块被堆叠来处理图像等输入源。直观地说,向 Transformer 输入多种模式的数据可以提高性能,但注意力权重可能会被稀释,从而极大地削弱最终的性能。
在本文中,作者提出了一种多模态 Token 融合方法(Token Fusion),针对基于 Transformer 的视觉任务。为了有效地融合多种模式,Token Fusion 动态检测无信息的 token,并用投影和聚合的跨模态特征替代这些 token。
残差位置对齐(residual positional alignment)也被用来使显式地利用融合后的模态间对齐。Token Fusion 的设计允许 Transformer 学习多模态特征之间的相关性,而单模态 Transformer 的架构在很大程度上保持不变。
作者在各种同质和异构模式上进行了大量的实验,证明了 Token Fusion 在三种典型的视觉任务中超过了最先进的方法:多模态图像到图像的翻译、RGB-D 语义分割和点云+图像的三维目标检测。
具体实现:
假设我们有第 i i