【CVPR 2022 多模态融合（有3D检测）】Multimodal Token Fusion for Vision Transformers

最新推荐文章于 2024-05-29 22:15:10 发布

BIT可达鸭

最新推荐文章于 2024-05-29 22:15:10 发布

阅读量2.3k

点赞数

分类专栏： ▶ 深度学习-计算机视觉文章标签： 3d 计算机视觉深度学习目标检测人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44936889/article/details/126817629

版权

▶ 深度学习-计算机视觉专栏收录该内容

155 篇文章 1437 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Multimodal Token Fusion for Vision Transformers

论文简介：
具体实现：
实验结果：

在这里插入图片描述

论文简介：

许多方法已经应用到了 Transformer 以解决单模态视觉任务，其中自注意模块被堆叠来处理图像等输入源。直观地说，向 Transformer 输入多种模式的数据可以提高性能，但注意力权重可能会被稀释，从而极大地削弱最终的性能。

在本文中，作者提出了一种多模态 Token 融合方法（Token Fusion），针对基于 Transformer 的视觉任务。为了有效地融合多种模式，Token Fusion 动态检测无信息的 token，并用投影和聚合的跨模态特征替代这些 token。

残差位置对齐（residual positional alignment）也被用来使显式地利用融合后的模态间对齐。Token Fusion 的设计允许 Transformer 学习多模态特征之间的相关性，而单模态 Transformer 的架构在很大程度上保持不变。

作者在各种同质和异构模式上进行了大量的实验，证明了 Token Fusion 在三种典型的视觉任务中超过了最先进的方法：多模态图像到图像的翻译、RGB-D 语义分割和点云+图像的三维目标检测。

具体实现：

假设我们有第

了解本专栏

超级会员免费看

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【CVPR 2022 多模态融合（有3D检测）】Multimodal Token Fusion for Vision Transformers

在本文中，作者提出了一种多模态 Token 融合方法（Token Fusion），针对基于 Transformer 的视觉任务。为了有效地融合多种模式，Token Fusion 动态检测无信息的 token，并用投影和聚合的跨模态特征替代这些 token。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BIT可达鸭 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。