[Algorithm] 深蓝学院BEV学习笔记第一章第二章笔记 更新中,本节理解不够深,学完整个课程再看

写在前面

本文记录在深蓝学习的笔记,推荐大家去购买,可以拿证书。同时一二节内容较为概念化,这里记录自己比较关心的点作为复习用,其实里面很多概念还是很迷糊,等学习完所有课程可能会有更好的理解

第一章

L2 和 L2+ 感知需求的对比

  • L2:ACC LKA AEB <20TOPS,关注前后视野,由于前融合算法模型大,L2算力下多使用后融合,但后融合感知算法扩展性差,基于规则的算法增加,会让系统不可持续
  • L2+:ALC 匝道汇入 无保护左转 200-1000TOPS,延伸到城市场景,关注周视,

算力概念https://blog.csdn.net/itas109/article/details/134627811

特斯拉遇到的问题

  • 跨相机融合,物体检测:是一台车的图还是很多?
  • 单目的速度检测,被遮挡物体
  • 未来的提示信息,如何为后续的任务保留信息
  • 解决办法:统一俯瞰视角,并保留时序信息:通过空间注意力和时序的融合

第二章

概要

  • 为什么要用bev空间

  • view transformation任务
    IPM LSS Transformer

  • 动静元素检测任务
    基于LSS、基于transformer

为什么要用bev空间

  • 传感器:
    摄像头前后 、环视 :通过透视变换(透视变换介绍
    lidar 通过三维压缩bev、 或voxel体素voxel view、 rangeview 极坐标下
    雷达 bev
  • 感知:
    前融合:雷达lidartocamera
    特征(深度)融合 : 再视锥范围内提取点,通过点云的特征融合视觉点与视觉特征。或者直接融合图像和点云的特征
    后融合:点云形成3d信息 ,图像2dto3d 加入深度,然后再融合
  • 预测:
    在3D 或者bev下
  • Pnc
    3D或者bev
    老师的图
    在这里插入图片描述老师的图里总结,也说明了问题出现在图像,如果图像可以使用BEV那么很多复杂的操作就不用用了,那么如何从多空间特征还原3d bev元素:动态检测,静态检测

现有问题:
比如图像,语义丰富但是形状和速度距离信息弱,lidar对于距离的检测能力在检测空间内几乎是不下降的,而雷达径向和切向检测能力也不同。用一套基于规则的融合算法很能提升系统性能。算法泛化能力弱。

BEV 、vector space 比如有车道县朝向等比bev更丰富的语义信息、3d

bev需要在结构化道路,道路近似平面,其实对于我们够用,弱化高度信息,没有必要3d 。减小算了。

IPM

inverse perspective mapping
通过矩阵变换转换视角
平移加旋转 or 只旋转

老师的图
在这里插入图片描述- 单应性矩阵
物理点通过外参和内参的转换对应到一个像素点a上,同一个物理点通过另外一组内外参数投影得另外一个点b,a和b之间的变换可以有一个3*3的矩阵对应,这个矩阵为单应性矩阵。
a and b 需要共面 目标足够远,深度差异可以忽略还可以但是如果过近就会有问题。

利用单应性将摄像头的图像通过IPM方法可以投影到地面上

老师的图
在这里插入图片描述

LSS-Lift Splat Shoot (这东西看例子我没太踏实,得有空找案例看代码)

  • lift 图像特征提取,估计每一个像素的深度,将2d特征变为3d特征
    具体来说,利用softmax估计每一个深度(沿着光心、像素点的射线方向均匀采样D个点)的概率a,特征的维度是(长,宽,特征数),将c与概率求外积,得a{i}c。

老师的图
在这里插入图片描述

  • splat 将list的点转化为BEV,
    难点:重合区域不能有差异、点数量多
    将BEV空间划分为H*W
    将3D点归属到最近网格内
    进行sum Pooling
  • shoot 就是在bev上做规划,属于早期的端到段

transformer

发展脉络:具体见课件
detr:crossattention ;deformabe可变形;detr 3d检测

结构:见我transformer系列学习笔记

VIT: 只是用了encoder把图像分割为patch 然后展开序列化 输入到tran中
swinTran : 用trans实现卷积
Detr: 没有放弃decoder
deformable:将注意力约束在局部区域:通过预测要关注的区域比如三个offset值得三个点,并且预测权重
Detr3D:进入3D时代:每一个query用MLP预测一个3D的点通过内外参数投影到不同相机上,通过交叉注意力在投影点附近找特征,实现3d到2d,同时可以反过来更新3d预测的参数

从Detr看到 交叉注意力能实现特征空间转换:

扩展
特征转换指的是通过对原始数据进行变换或映射,创建新的特征集合的过程。这个过程的目的是改变数据的表示形式,使得数据更适合用于模型训练或提取更有意义的信息。

特征转换可以有多种形式,其中一些常见的包括:

多项式特征扩展(Polynomial Feature Expansion):通过对原始特征进行多项式组合,生成新的特征。例如,对于一维特征 (x),通过多项式特征扩展可以生成 (x, x^2, x^3, \ldots) 等项。

主成分分析(Principal Component Analysis,PCA):通过线性变换将原始特征映射到新的特征空间,新特征是原始特征的线性组合。PCA的目标是最大程度地保留数据中的方差。

核方法(Kernel Methods):通过使用核函数,将数据从原始空间映射到更高维的特征空间。这在支持向量机(Support Vector Machines,SVM)等算法中经常使用。

嵌入式特征选择(Embedded Feature Selection):在模型训练的过程中,通过对特征进行权衡,选择对模型性能贡献最大的特征。这可以通过正则化等方法来实现。

标准化和归一化(Standardization and Normalization):对原始特征进行缩放,使得它们具有相似的尺度。这有助于一些模型,特别是涉及距离计算的模型,更好地处理数据。

特征交互(Feature Interaction):通过结合多个特征,生成新的交互项。例如,对于特征 (x_1) 和 (x_2),可以创建一个新特征 (x_1 \times x_2)

在这里插入图片描述
老师的图,我的疑问没有内外参数如何投影?

总结

IPM :像素特征直接到BEV空间
2Dto3D:LSS预测视锥深度通过内外参投影
3Dto2D:通过tran用3dquery查2dfeature

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值