写在前面
本文记录在深蓝学习的笔记,推荐大家去购买,可以拿证书。同时一二节内容较为概念化,这里记录自己比较关心的点作为复习用,其实里面很多概念还是很迷糊,等学习完所有课程可能会有更好的理解
第一章
L2 和 L2+ 感知需求的对比
- L2:ACC LKA AEB <20TOPS,关注前后视野,由于前融合算法模型大,L2算力下多使用后融合,但后融合感知算法扩展性差,基于规则的算法增加,会让系统不可持续
- L2+:ALC 匝道汇入 无保护左转 200-1000TOPS,延伸到城市场景,关注周视,
算力概念https://blog.csdn.net/itas109/article/details/134627811
特斯拉遇到的问题
- 跨相机融合,物体检测:是一台车的图还是很多?
- 单目的速度检测,被遮挡物体
- 未来的提示信息,如何为后续的任务保留信息
- 解决办法:统一俯瞰视角,并保留时序信息:通过空间注意力和时序的融合
第二章
概要
-
为什么要用bev空间
-
view transformation任务
IPM LSS Transformer -
动静元素检测任务
基于LSS、基于transformer
为什么要用bev空间
- 传感器:
摄像头前后 、环视 :通过透视变换(透视变换介绍)
lidar 通过三维压缩bev、 或voxel体素voxel view、 rangeview 极坐标下
雷达 bev - 感知:
前融合:雷达lidartocamera
特征(深度)融合 : 再视锥范围内提取点,通过点云的特征融合视觉点与视觉特征。或者直接融合图像和点云的特征
后融合:点云形成3d信息 ,图像2dto3d 加入深度,然后再融合 - 预测:
在3D 或者bev下 - Pnc
3D或者bev
老师的图
老师的图里总结,也说明了问题出现在图像,如果图像可以使用BEV那么很多复杂的操作就不用用了,那么如何从多空间特征还原3d bev元素:动态检测,静态检测
现有问题:
比如图像,语义丰富但是形状和速度距离信息弱,lidar对于距离的检测能力在检测空间内几乎是不下降的,而雷达径向和切向检测能力也不同。用一套基于规则的融合算法很能提升系统性能。算法泛化能力弱。
BEV 、vector space 比如有车道县朝向等比bev更丰富的语义信息、3d
bev需要在结构化道路,道路近似平面,其实对于我们够用,弱化高度信息,没有必要3d 。减小算了。
IPM
inverse perspective mapping
通过矩阵变换转换视角
平移加旋转 or 只旋转
老师的图
- 单应性矩阵
物理点通过外参和内参的转换对应到一个像素点a上,同一个物理点通过另外一组内外参数投影得另外一个点b,a和b之间的变换可以有一个3*3的矩阵对应,这个矩阵为单应性矩阵。
a and b 需要共面 目标足够远,深度差异可以忽略还可以但是如果过近就会有问题。
利用单应性将摄像头的图像通过IPM方法可以投影到地面上
老师的图
LSS-Lift Splat Shoot (这东西看例子我没太踏实,得有空找案例看代码)
- lift 图像特征提取,估计每一个像素的深度,将2d特征变为3d特征
具体来说,利用softmax估计每一个深度(沿着光心、像素点的射线方向均匀采样D个点)的概率a,特征的维度是(长,宽,特征数),将c与概率求外积,得a{i}c。
老师的图
- splat 将list的点转化为BEV,
难点:重合区域不能有差异、点数量多
将BEV空间划分为H*W
将3D点归属到最近网格内
进行sum Pooling - shoot 就是在bev上做规划,属于早期的端到段
transformer
发展脉络:具体见课件
detr:crossattention ;deformabe可变形;detr 3d检测
结构:见我transformer系列学习笔记
VIT: 只是用了encoder把图像分割为patch 然后展开序列化 输入到tran中
swinTran : 用trans实现卷积
Detr: 没有放弃decoder
deformable:将注意力约束在局部区域:通过预测要关注的区域比如三个offset值得三个点,并且预测权重
Detr3D:进入3D时代:每一个query用MLP预测一个3D的点通过内外参数投影到不同相机上,通过交叉注意力在投影点附近找特征,实现3d到2d,同时可以反过来更新3d预测的参数
从Detr看到 交叉注意力能实现特征空间转换:
扩展
特征转换指的是通过对原始数据进行变换或映射,创建新的特征集合的过程。这个过程的目的是改变数据的表示形式,使得数据更适合用于模型训练或提取更有意义的信息。
特征转换可以有多种形式,其中一些常见的包括:
多项式特征扩展(Polynomial Feature Expansion):通过对原始特征进行多项式组合,生成新的特征。例如,对于一维特征 (x),通过多项式特征扩展可以生成 (x, x^2, x^3, \ldots) 等项。
主成分分析(Principal Component Analysis,PCA):通过线性变换将原始特征映射到新的特征空间,新特征是原始特征的线性组合。PCA的目标是最大程度地保留数据中的方差。
核方法(Kernel Methods):通过使用核函数,将数据从原始空间映射到更高维的特征空间。这在支持向量机(Support Vector Machines,SVM)等算法中经常使用。
嵌入式特征选择(Embedded Feature Selection):在模型训练的过程中,通过对特征进行权衡,选择对模型性能贡献最大的特征。这可以通过正则化等方法来实现。
标准化和归一化(Standardization and Normalization):对原始特征进行缩放,使得它们具有相似的尺度。这有助于一些模型,特别是涉及距离计算的模型,更好地处理数据。
特征交互(Feature Interaction):通过结合多个特征,生成新的交互项。例如,对于特征 (x_1) 和 (x_2),可以创建一个新特征 (x_1 \times x_2)
老师的图,我的疑问没有内外参数如何投影?
总结
IPM :像素特征直接到BEV空间
2Dto3D:LSS预测视锥深度通过内外参投影
3Dto2D:通过tran用3dquery查2dfeature