[Algorithm] 深蓝学院BEV学习笔记第一章第二章笔记更新中，本节理解不够深，学完整个课程再看

本文链接：https://blog.csdn.net/weixin_46479223/article/details/134608750

写在前面

本文记录在深蓝学习的笔记，推荐大家去购买，可以拿证书。同时一二节内容较为概念化，这里记录自己比较关心的点作为复习用，其实里面很多概念还是很迷糊，等学习完所有课程可能会有更好的理解

第一章

L2 和 L2+ 感知需求的对比

L2:ACC LKA AEB <20TOPS，关注前后视野，由于前融合算法模型大，L2算力下多使用后融合，但后融合感知算法扩展性差，基于规则的算法增加，会让系统不可持续
L2+:ALC 匝道汇入无保护左转 200-1000TOPS，延伸到城市场景，关注周视，

算力概念https://blog.csdn.net/itas109/article/details/134627811

特斯拉遇到的问题

跨相机融合，物体检测：是一台车的图还是很多？
单目的速度检测，被遮挡物体
未来的提示信息，如何为后续的任务保留信息
解决办法：统一俯瞰视角，并保留时序信息：通过空间注意力和时序的融合

第二章

概要

为什么要用bev空间
view transformation任务
IPM LSS Transformer
动静元素检测任务
基于LSS、基于transformer

为什么要用bev空间

传感器：
摄像头前后、环视：通过透视变换（透视变换介绍）
lidar 通过三维压缩bev、或voxel体素voxel view、 rangeview 极坐标下
雷达 bev
感知：
前融合：雷达lidartocamera
特征（深度）融合 : 再视锥范围内提取点，通过点云的特征融合视觉点与视觉特征。或者直接融合图像和点云的特征
后融合：点云形成3d信息，图像2dto3d 加入深度，然后再融合
预测：
在3D 或者bev下
Pnc
3D或者bev
老师的图
老师的图里总结，也说明了问题出现在图像，如果图像可以使用BEV那么很多复杂的操作就不用用了，那么如何从多空间特征还原3d bev元素：动态检测，静态检测

现有问题：
比如图像，语义丰富但是形状和速度距离信息弱，lidar对于距离的检测能力在检测空间内几乎是不下降的，而雷达径向和切向检测能力也不同。用一套基于规则的融合算法很能提升系统性能。算法泛化能力弱。

BEV 、vector space 比如有车道县朝向等比bev更丰富的语义信息、3d

bev需要在结构化道路，道路近似平面，其实对于我们够用，弱化高度信息，没有必要3d 。减小算了。

IPM

inverse perspective mapping
通过矩阵变换转换视角
平移加旋转 or 只旋转

老师的图
在这里插入图片描述 - 单应性矩阵
物理点通过外参和内参的转换对应到一个像素点a上，同一个物理点通过另外一组内外参数投影得另外一个点b，a和b之间的变换可以有一个3*3的矩阵对应，这个矩阵为单应性矩阵。
a and b 需要共面 目标足够远，深度差异可以忽略还可以但是如果过近就会有问题。

利用单应性将摄像头的图像通过IPM方法可以投影到地面上

老师的图
在这里插入图片描述

LSS-Lift Splat Shoot （这东西看例子我没太踏实，得有空找案例看代码）

lift 图像特征提取，估计每一个像素的深度,将2d特征变为3d特征
具体来说，利用softmax估计每一个深度（沿着光心、像素点的射线方向均匀采样D个点）的概率a，特征的维度是（长，宽，特征数），将c与概率求外积，得a{i}c。

老师的图
在这里插入图片描述

splat 将list的点转化为BEV，
难点：重合区域不能有差异、点数量多
将BEV空间划分为H*W
将3D点归属到最近网格内
进行sum Pooling
shoot 就是在bev上做规划，属于早期的端到段

transformer

发展脉络：具体见课件
detr：crossattention ；deformabe可变形；detr 3d检测

结构：见我transformer系列学习笔记

VIT：只是用了encoder把图像分割为patch 然后展开序列化输入到tran中
swinTran ：用trans实现卷积
Detr：没有放弃decoder
deformable：将注意力约束在局部区域：通过预测要关注的区域比如三个offset值得三个点，并且预测权重
Detr3D：进入3D时代：每一个query用MLP预测一个3D的点通过内外参数投影到不同相机上，通过交叉注意力在投影点附近找特征，实现3d到2d，同时可以反过来更新3d预测的参数

从Detr看到交叉注意力能实现特征空间转换：

扩展
特征转换指的是通过对原始数据进行变换或映射，创建新的特征集合的过程。这个过程的目的是改变数据的表示形式，使得数据更适合用于模型训练或提取更有意义的信息。

特征转换可以有多种形式，其中一些常见的包括：

多项式特征扩展（Polynomial Feature Expansion）：通过对原始特征进行多项式组合，生成新的特征。例如，对于一维特征 (x)，通过多项式特征扩展可以生成 (x, x^2, x^3, \ldots) 等项。

主成分分析（Principal Component Analysis，PCA）：通过线性变换将原始特征映射到新的特征空间，新特征是原始特征的线性组合。PCA的目标是最大程度地保留数据中的方差。

核方法（Kernel Methods）：通过使用核函数，将数据从原始空间映射到更高维的特征空间。这在支持向量机（Support Vector Machines，SVM）等算法中经常使用。

嵌入式特征选择（Embedded Feature Selection）：在模型训练的过程中，通过对特征进行权衡，选择对模型性能贡献最大的特征。这可以通过正则化等方法来实现。

标准化和归一化（Standardization and Normalization）：对原始特征进行缩放，使得它们具有相似的尺度。这有助于一些模型，特别是涉及距离计算的模型，更好地处理数据。

特征交互（Feature Interaction）：通过结合多个特征，生成新的交互项。例如，对于特征 (x_1) 和 (x_2)，可以创建一个新特征 (x_1 \times x_2)

在这里插入图片描述
老师的图，我的疑问没有内外参数如何投影？