Multimodal Token Fusion for Vision Transformers 论文简介: 具体实现: Alignment-agnostic fusion Alignment-aware fusion Multimodal Token Fusion Residual Positional Alignment 实验结果: 论文简介: 许多方法已经应用到了 Transformer 以解决单模态视觉任务,其中自注意模块被堆叠来处理图像等输入源。直观地说,向 Transformer 输入多种模式的数据可以提高性能,但注意力权重可能会被稀释,从而极大地削弱最终的性能。 在本文中,作者提出了一种多模态 Token 融合方法&