hunter@@-CSDN博客

原创双线性插值函数理解与手动实现torch.gird_sampler_2d

（1）torch.gird_sampler_2d函数中最重要的是grid网格的构建方式，grid的shape决定了输出的插值结果。（2）之后的很多插值方法都是修改grid的网格矩阵的值来进行其他的插值方式的构建，比如TPS薄板样条插值等。修改方式一般为vgrid = grid + ........（3）牢记grid网格的实现方式。

2024-12-05 11:18:30 1037

原创点云3D检测篇三：SECOND

点云数据与传统的图像数据不同，具有较强的稀疏性，无法使用标准的卷积神经网络进行特征提取，如图2所示。同理，考虑到2D任务中如果只处理一部分像素，标准卷积的效果也不好，需要使用2D的稀松卷积，因此本小节就从2D稀疏卷积出发，介绍一下稀疏卷积的原理，大家可以自行将其拓展到3D稀疏卷积中去，其实就多了一个深度信息D。图 2 点云数据（左）和稀疏图像（右）由上，本小节考虑一个简单的2D稀疏卷积问题来进行讲解。输入数据：定义一个 3 通道的 5 × 5 图像。

2024-07-23 13:55:02 1863 1

原创点云3D检测篇二：VoxelNet

1、相比于pointnet系列直接对原始激光点云进行特征提取，voxelnet将原始激光点云进行一个一个voxel的体素化分割，再利用卷积神经网络对体素特征进行特征提取。2、Voxelnet提出的先体素化再采样的点云特征提取方法大大提高了点云数据的处理速度与精度。3、Voxelnet的loss计算方案延续了的RPN结构，借用anchors先验眶，对提出的特征进行处理，使用cls-head和reg-head进行类别置信度和回归 bounding box的计算。

2024-07-13 13:47:32 1469

原创点云3D检测篇一：pointnet、pointnet++

（1）核心贡献点：使用torch.max最大池化消除了网络对点云顺序敏感的问题。（2）通过T-Net网络进行旋转矩阵预测，解决了点云的无序性问题。与其他主流点云网络不同，只是做了全局信息的融合，并没有考虑到局部的语义。（4）点对之间的特征关系并没有考虑。PointNet++的局部特征提取与PointNet基本相同，都是通过一个torch.max（最大池化）来实现局部特征提取的。在代码中，使用了pointnet来完成整个流程。

2024-07-08 11:16:57 1227

原创自动驾驶-BEV检测篇七：BEVDet4D

（1）BEVDet4D是在BEVDet的基础上加入了时序特征信息来进一步提高速度预测的精度。（2）考虑到时序特征会出现错位的问题，引入了特征对齐模块来对齐T、T-1时刻的BEV特征。

2024-07-01 14:30:29 3557 3

原创自动驾驶-BEV检测篇六：BEVDet

1、BEVDet的代码基本和LSS类似，更多的是使用mmdet3D框架对其进行了封装。2、读完整个BEVDet的代码之后，其实本人没有找到论文中提及到的数据增强和Scale NMS两个创新点的代码位置（如果有大佬找到，恳请在此分享一下！！！3、尤其是论文中提到了过拟合问题，即img_backbone得到了充分的训练（6个相机的图像），但是BEV_encoder端的数据（6个相机的图像才会生成一个BEV图）是缺少的，感觉代码上没有体现出这部分的解决思路。

2024-06-27 14:33:05 2977

原创自动驾驶-BEV检测篇五：PETR v2

（1）将PETR中的3D PE扩展到时序版本，通过对生成的3D coordinates进行变换，实现了时序对齐。（2）PETR中，3D PE的生成是data-independent的，引入了一个特征引导的位置编码器，使得3D PE的生成和输入数据相关，隐式地从特征中获取到深度等信息。（3）引入了一个简单高效的方案来支持BEV分割。受SOLQ5启发，DETR框架中一个query足以表征一块区域内的掩码，为此定义若干个分割查询向量实现高质量的BEV分割。

2024-06-19 17:26:18 2626

原创自动驾驶-BEV检测篇四：PETR

PETR是对DETR3D改进的一次伟大尝试。本质还是通过和不同视角的图像特征进行交互进行隐式得进行3D检测。(1)使用全局注意力机制代替了可变行注意力机制，增加了全局特征提取。(2)添加了3D位置编码信息，对不同视觉的图像特征进行了一定的约束。

2024-06-18 14:04:35 1982

原创自动驾驶-BEV检测篇三：DETR-3D

（1）DETR3D是DETR2D的一个改进版，主要通过初始化一个3D的object query，将其投影到2D像素平面上和不同视角图像特征进行交互，来预测3D物体的位置。（2）和LSS、BEVdet等一系列基于深度估计的BEV方案完全不同。（3）BEVformer可以看成DETR3D的改进版，是DETR3D和BEV方案的结合产物，个人感觉是介于DETR3D和自上而下的BEV方案的中间产物。

2024-06-15 19:03:05 2271 1

原创自动驾驶-BEV检测篇二：BEVformer

BEVformer是自动驾驶算法中的重要部分之一，由南京大学、香港大学、上海人工智能实验室与2022年提出，也是3D->2D变换的开创工作，和我们上次讲的LSS（2D->3D）方案截然不同。其出发点主要在于解决自驾方案中2D信息难以精确推断3D位置的问题，开创性的提出使用多相机输入来生成鸟瞰图特征的方案，在nuscene数据集上的NDS达到了56.9%，比之前最好的高出了9个点，与基于雷达的baseline性能相当。同时，BEVFormer显著提高了低可见度情况下的速度估计精度和物体召回率。图 1。

2024-06-06 16:25:55 2425 10

原创自动驾驶-BEV检测篇一：Lift-Splat-Shoot

Lift Splat Shoot算法是自动驾驶感知算法的开山之作，由NVIDIA于2020年提出，也是从2D到3D正投影算法的开山之作。其主要思想是通过车顶的6个环状相机进行360°视野感知，通过每个相机的图像特征进行深度估计D,构建出一个空间的伪点云（不是真实的点云，其本质是一个视锥），也就是lift操作；之后再通过Splat操作，将3D的特征拍扁到一个200 X 200的一个二维俯视特征图中（也就是熟知的BEV特征），之后再通过常用的一些二维图像的处理方法（卷积、池化等）对BEV特征进行图像特征提取。

2024-05-21 20:33:18 2024