51-24 BEVFormer、BEVFormer v2,Occupancy占用网络灵感源泉 论文精读

今天要读论文的是BEVFormer,有人说这是新一代自动驾驶感知融合的基石,有人说是后续Occupancy Network占用网络工作的灵感源泉。我们从题目《通过时空transformer从多摄像头图像中学习BEV表示》来看,这应该是BEV开山之作LSS论文的姊妹篇。

本文以BEVFormer为主,同时介绍改进版BEVFormer v2。

论文和代码地址 

论文题目:Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

论文地址:https://arxiv.org/abs/2203.17270

代码地址:https://github.com/zhiqi-li/BEVFormer

BEVFormer 是一个纯视觉方案,基本上奠定了当前自动驾驶纯视觉感知基本框架:

  • 一个核心:纯视觉;
  • 两个策略:将 Attention 应用于时间与空间维度;
  • 三个节约:Attention 计算简化,特征映射简化,粗粒度特征空间;
  • 框架结构:时间+空间+DeformableAt
  • 24
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
可变形注意力机制(Deformable Attention Mechanism, DAT)是一种注意力机制,它能够根据输入数据的形状和结构自适应地调整注意力的分布。这种机制可以更好地捕捉到数据中的复杂模式和结构,从而在各种任务中表现出色。 DAT的核心思想是引入了一个可变形注意力图卷积层(Deformable Graph Convolution, DGC),该层能够根据输入特征图的位置和形状自适应地生成注意力权重。通过引入可变形图卷积层,DAT能够灵活地处理具有不同形状和尺寸的输入特征图,并在处理过程中捕捉到潜在的复杂模式和结构。 在传统的注意力机制中,注意力权重通常是静态的,它们是在一个固定的窗口内生成的,不能适应输入数据的动态变化。而DAT通过引入可变形注意力图卷积层,能够根据输入特征图的形状和结构自适应地生成注意力权重,从而更好地捕捉到数据中的动态变化和复杂模式。 DAT在视觉任务中表现出了优越的性能,例如目标检测、图像分割和人脸识别等。它能够有效地提高模型的性能,特别是在处理具有复杂形状和结构的任务时。此外,DAT还具有较低的计算复杂性和较小的内存需求,使其在实时应用中具有优势。 总的来说,可变形注意力机制DAT是一种具有创新性的注意力机制,它能够根据输入数据的形状和结构自适应地调整注意力的分布,从而在各种视觉任务中表现出色。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深圳季连AIgraphX

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值