自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 点云3D检测篇一:pointnet、pointnet++

(1)核心贡献点:使用torch.max最大池化消除了网络对点云顺序敏感的问题。(2)通过T-Net网络 进行旋转矩阵预测,解决了点云的无序性问题。与其他主流点云网络不同,只是做了全局信息的融合,并没有考虑到局部的语义。(4)点对之间的特征关系并没有考虑。PointNet++的局部特征提取与PointNet基本相同,都是通过一个torch.max(最大池化)来实现局部特征提取的。在代码中,使用了pointnet来完成整个流程。

2024-07-08 11:16:57 362

原创 自动驾驶-BEV检测篇七:BEVDet4D

(1)BEVDet4D是在BEVDet的基础上加入了时序特征信息来进一步提高速度预测的精度。(2)考虑到时序特征会出现错位的问题,引入了特征对齐模块来对齐T、T-1时刻的BEV特征。

2024-07-01 14:30:29 875 2

原创 自动驾驶-BEV检测篇六:BEVDet

1、BEVDet的代码基本和LSS类似,更多的是使用mmdet3D框架对其进行了封装。2、读完整个BEVDet的代码之后,其实本人没有找到论文中提及到的数据增强和Scale NMS两个创新点的代码位置(如果有大佬找到,恳请在此分享一下!!!3、尤其是论文中提到了过拟合问题,即img_backbone得到了充分的训练(6个相机的图像),但是BEV_encoder端的数据(6个相机的图像才会生成一个BEV图)是缺少的,感觉代码上没有体现出这部分的解决思路。

2024-06-27 14:33:05 1184

原创 自动驾驶-BEV检测篇五:PETR v2

(1)将PETR中的3D PE扩展到时序版本,通过对生成的3D coordinates进行变换,实现了时序对齐。(2)PETR中,3D PE的生成是data-independent的,引入了一个特征引导的位置编码器,使得3D PE的生成和输入数据相关,隐式地从特征中获取到深度等信息。(3)引入了一个简单高效的方案来支持BEV分割。受SOLQ5启发,DETR框架中一个query足以表征一块区域内的掩码,为此定义若干个分割查询向量实现高质量的BEV分割。

2024-06-19 17:26:18 1023

原创 自动驾驶-BEV检测篇四:PETR

PETR是对DETR3D改进的一次伟大尝试。本质还是通过和不同视角的图像特征进行交互进行隐式得进行3D检测。(1)使用全局注意力机制代替了可变行注意力机制,增加了全局特征提取。(2)添加了3D位置编码信息,对不同视觉的图像特征进行了一定的约束。

2024-06-18 14:04:35 753

原创 自动驾驶-BEV检测篇三:DETR-3D

(1)DETR3D是DETR2D的一个改进版,主要通过初始化一个3D的object query,将其投影到2D像素平面上和不同视角图像特征进行交互,来预测3D物体的位置。(2)和LSS、BEVdet等一系列基于深度估计的BEV方案完全不同。(3)BEVformer可以看成DETR3D的改进版,是DETR3D和BEV方案的结合产物,个人感觉是介于DETR3D和自上而下的BEV方案的中间产物。

2024-06-15 19:03:05 842

原创 自动驾驶-BEV检测篇二:BEVformer

BEVformer是自动驾驶算法中的重要部分之一,由南京大学、香港大学、上海人工智能实验室与2022年提出,也是3D->2D变换的开创工作,和我们上次讲的LSS(2D->3D)方案截然不同。其出发点主要在于解决自驾方案中2D信息难以精确推断3D位置的问题,开创性的提出使用多相机输入来生成鸟瞰图特征的方案,在nuscene数据集上的NDS达到了56.9%,比之前最好的高出了9个点,与基于雷达的baseline性能相当。同时,BEVFormer显著提高了低可见度情况下的速度估计精度和物体召回率。图 1。

2024-06-06 16:25:55 853 1

原创 自动驾驶-BEV检测篇一:Lift-Splat-Shoot

Lift Splat Shoot算法是自动驾驶感知算法的开山之作,由NVIDIA于2020年提出,也是从2D到3D正投影算法的开山之作。其主要思想是通过车顶的6个环状相机进行360°视野感知,通过每个相机的图像特征进行深度估计D,构建出一个空间的伪点云(不是真实的点云,其本质是一个视锥),也就是lift操作;之后再通过Splat操作,将3D的特征拍扁到一个200 X 200的一个二维俯视特征图中(也就是熟知的BEV特征),之后再通过常用的一些二维图像的处理方法(卷积、池化等)对BEV特征进行图像特征提取。

2024-05-21 20:33:18 942

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除