【深入理解BEVFormer】BEVFormer

任务场景

在这里插入图片描述
多模态融合和多传感器融合

在这里插入图片描述
BEV:鸟瞰图

这个特征空间与每个视角都相关

在这里插入图片描述
早期是用后融合,目前比较流行的是特征级融合

在这里插入图片描述
在这里插入图片描述
自身运动补偿:如果按照像素点进行特征对齐,需要指定偏移量 x y两个方向
特征空间是自己定义的,常见的是200x200,根据自己的硬件成本去考虑,每个网格点是一个特征向量,

在这里插入图片描述
同一个特征空间同时做多个下游任务,每一个相机视图又有多个特征,
分辨率太高,导致计算成本过高,难以训练

BEVFormer

在这里插入图片描述

时间和空间上都要做对齐,
DeformableAttention是目前的主流

输入

在这里插入图片描述
输入是一个序列
batch_size = 16
queue=3 t-2 t-1 t 不仅要考虑当前时刻,还要考虑前两个时刻,t-2 t-1
cam=6 6个摄像头
C=RGB 3
H W 高 宽

在这里插入图片描述

只用6个视角的摄像头
Backbone 是什么都可以 最好要速度快

在这里插入图片描述
在这里插入图片描述实际用自注意力机制做的,时间注意力和空间注意力

可变形注意力机制

在这里插入图片描述
当前的点作为query,只跟周围的4个点作为key,去计算相似度分数。基于当前点的偏移量
这4个点的贡献不相同,

在这里插入图片描述

空间注意力机制
映射到特征图,不一定是准确的那个点,得到的平面是一个高度的,一个点对应4个query,每个query对应一个不同的高度。

先做时间注意力,后做空间注意力

在这里插入图片描述

BEVForm++

在这里插入图片描述在这里插入图片描述
把1x1的卷积核换成3x3的,感受野更大,可以考虑周边的情况,让偏移量的预测更准确

在这里插入图片描述

先做时间,如果不做时间注意力,后面就不准确,可以把前面的query作为初始化。

windows跑不了,必须是Linux环境,显存至少12G以上,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值