3d目标检测
文章平均质量分 93
自动驾驶领域的3d目标检测
zyw2002
Github: https://github.com/zyw-stu
Talent hits a target no one else can hit; Genius hits a target no one else can see;
展开
-
论文精读:《DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries》
我们介绍了一个多摄像机三维目标检测(multi-camera 3D object detection)的框架。与现有的直接从单目图像中估计三维边界盒或利用深度预测网络从二维信息中生成用于三维目标检测的输入相比,我们的方法直接在三维空间中处理预测。具体流程:我们的架构从多个摄像机图像中提取2D特征,然后使用稀疏的3D对象查询集索引到这些2D特征中,使用摄像机变换矩阵将3D位置链接到多视角图像。最后,我们的模型对每个对象查询进行包围盒预测,使用集到集的损失来度量真实框和预测之间的差异。原创 2022-12-09 22:01:21 · 5108 阅读 · 2 评论 -
论文精读:《FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection》
单目三维目标检测具有成本低的优点,是自动驾驶的一项重要任务。由于其固有的不适定特性,其主要表现为缺乏深度信息,因而比传统的二维情形更具挑战性。二维检测的最新进展为更好地解决这一问题提供了机会。然而,使一个通用的自适应二维探测器在这种三维任务中工作是不简单的。本文以一个全卷积的单级检测器为例,对该问题进行了研究,并提出了一个通用框FCOS3D。具体来说,我们首先将统一定义的7自由度三维目标变换到图像域,将它们解耦为二维和三维属性。原创 2022-12-17 09:25:54 · 3044 阅读 · 0 评论 -
论文精读:《MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones》
在这份技术报告中,我们介绍了我们的解决方案,称为MV-FCOS3D++,用于Waymo Open DataSet Challenge 2022中的仅摄像机三维检测轨道。对于多视点摄像机的三维检测,基于鸟瞰或三维几何表示的方法可以利用相邻视点之间重叠区域的立体线索,直接进行三维检测,而无需手工制作后处理。然而,它缺乏对二维主干的直接语义监督,这可以通过预先训练简单的基于单目的检测器来补充。我们的解决方案是遵循这种范式的4D检测的多视图框架。原创 2022-12-17 09:30:36 · 688 阅读 · 0 评论 -
论文精读:《BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective 》
本文工作:提出了一种具有透视监督(perspective supervision)的新型鸟瞰(BEV)检测器,该检测器收敛速度更快,更适合现代图像骨干。现有的最先进的BEV检测器通常与VovNet等特定深度预训练的主干相连,阻碍了蓬勃发展的图像主干和BEV检测器之间的协同作用。为了解决这一限制,我们优先考虑通过引入透视图监督(perspective view supervision)来简化BEV探测器的优化。原创 2022-12-10 22:16:12 · 3076 阅读 · 0 评论 -
Ubuntu18.04复现mmdetection3d
数据预处理完之后,会生成一些文件,保存在。重新编译mmdetection3d。然后再执行数据预处理的命令。原创 2022-12-19 23:42:43 · 858 阅读 · 0 评论 -
【LSS: Lift, Splat, Shoot】代码的复现与详细解读
基于ubuntu复现Lift,Splat,Shoot代码,并对代码进行详细的解读和注释原创 2022-12-15 11:26:42 · 10090 阅读 · 21 评论 -
【PCL1.11.0+win10+vs2019】环境配置/ 点云格式转换及可视化
不要慌,说明只是环境变量没有自动配置好,接下来我们手动配置即可。首先我们需要下载pcl1.11.0 ,这个版本与vs2019对应。有两种下载方法:百度网盘、官网下载。如果安装的过程中提示。中添加以下7个目录:(原创 2022-12-19 12:08:10 · 2227 阅读 · 1 评论 -
NuSences 数据集解析以及 nuScenes devkit 的使用
nuScenes数据集(发音为/nuːsiːnz/)是由Motional(前身为nuTonomy)团队开发的用于自动驾驶的公共大规模数据集。motion公司正在让无人驾驶汽车成为一个安全、可靠、方便的现实。通过向公众发布我们的一部分数据,motion旨在支持公众对计算机视觉和自动驾驶的研究。为此,我们收集了波士顿和新加坡的1000个驾驶场景,这两个城市以交通密集和极具挑战性的驾驶情况而闻名。时长20秒的场景是手动选择的,展示了一组多样而有趣的驾驶动作、交通状况和意外行为。原创 2022-12-13 07:15:00 · 29245 阅读 · 13 评论 -
Ubuntu Server 18.04安装远程桌面并连接
尝试了很多种方法,折腾了一晚上终于搞出来了呜呜…顺便记录一下,以免下次忘记!原创 2022-10-19 01:59:11 · 3450 阅读 · 1 评论 -
腾讯云Ubuntu18.04配置OpenPCDet深度学习环境
安装过程中在建立软链接时需要注意一下,如果你是第一次安装cuda,那么毫无疑问输入y(yes),但是如果你是安装额外版本的cuda,是否选择y(yes)就要看你的具体需求而定,简言之,就是如果你希望启用当前安装的cuda版本,就选y,如果你只是想安装这个版本,而暂时还不想启用该版本时,就选n。注意这个文件名,前面的cuda_10.1.105代表cuda的版本,后面的418.39代表的对应的NVIDIA驱动的版本。这个版本选择也是个坑,,这个型号要和自己购买的云服务器上的型号对应。原创 2022-10-18 16:08:05 · 1842 阅读 · 3 评论 -
Ubuntu18.04复现OpenPCDet
命令用于删除已安装的软件包(不保留配置文件),删除软件包,同时删除相应依赖软件包;如果使用MobaXterm,则直接将文件拖动即可完成上传。安装setup.py 里面information字段声明的包含的依赖。从下面的百度网盘上下载OpenPCDet, 并上传到服务器上。从百度网盘上下载cudnn10.2。–来自百度网盘超级会员V4的分享。其他版本的cuda下载链接参考。–来自百度网盘超级会员V4的分享。–来自百度网盘超级会员V4的分享。【方法1】:直接从官网上下载。【方法2】:从百度网盘上下载。原创 2022-10-24 00:52:48 · 1559 阅读 · 0 评论 -
OpenPCDet解析
OpenPCDet: Open-MMLab 面向LiDAR点云表征的3D目标检测代码库OpenPCDet的github链接OpenPCDet 是一套基于PyTorch实现的点云3D目标检测代码库。设计思想点云数据集(KITTI、NuScene、Lyft、Waymo、PandaSet等)在数据格式与3D坐标系上往往定义各不相同,各式各样的点云感知算法(point-based、 voxel-based、one-stage/two-stage等)也形态各异因此基于数据-模型分离。原创 2022-10-20 12:50:41 · 12705 阅读 · 11 评论 -
在OpenPCDet上训练KITTI数据集并进行测试和验证
在进行训练之前。原创 2022-10-24 00:54:11 · 4608 阅读 · 17 评论 -
KITTI数据集解析和可视化
文章链接概述KITTI数据集是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。原创 2022-10-19 14:58:05 · 11409 阅读 · 7 评论 -
论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》
背景介绍:二维的目标检测算法启发我们去寻找一个高效可用的三维目标检测算法自动驾驶通过感知周围环境来做出决定,这是视觉领域中最复杂的场景之一。范式创新在解决二维目标检测中的成功激励着我们去寻找一个简练的、可行的、可扩展的范例,从根本上推动该领域的性能边界。主要工作:重用2D目标检测的框架,主要改进点在于 1. 构造一个专属的数据扩充策略 2. 升级NMS方法。为了这个目的,本文提出了BEVDet范式。原创 2022-11-17 17:15:18 · 9021 阅读 · 4 评论 -
论文精读——《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation》
研究背景:多传感器融合对于精确可靠的自动驾驶系统是必不可少的。最近的方法是基于点级融合:用摄像机特征增强LIDAR点云。然而,相机到激光雷达的投影会丢弃相机特征的语义密度(semantic density),阻碍了这种方法的有效性,尤其是对于面向语义的任务(如三维场景分割)。本文利用BEVFusion这一高效通用的多任务多传感器融合框架,打破了这一根深蒂固的惯例。它在共享鸟瞰(BEV)表示空间中统一了多模态特征,很好地保留了几何和语义信息。为了实现这一点,我们。原创 2022-11-24 16:27:21 · 6305 阅读 · 2 评论 -
论文精读——《BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotempor》
三维视觉感知任务,包括基于多摄像机图像的三维检测和地图分割,是自动驾驶系统必不可少的任务。在这项工作中,我们提出了一个新的框架Bevformer,它通过时空转换器(spatiotemporal transformer)学习统一的BEV表示来支持多个自动驾驶感知任务。简而言之,Bevformer通过预先定义的网格状BEV查询与空间和时间空间进行交互,从而利用空间和时间信息。原创 2022-11-24 16:17:09 · 1787 阅读 · 0 评论 -
论文精读 《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》
研究动机:单目3D目标检测难以预测物体的深度单目 3D 目标检测是自动驾驶领域的一个关键问题,因为它与典型的多传感器系统相比配置比较简单。单目 3D 检测的主要挑战在于准确预测物体深度,由于缺乏直接的距离测量,因此必须从物体和场景线索推断出物体深度。许多方法试图直接估计深度以辅助 3D 检测,但性能有限,深度估计不准确。主要工作: 提出CaDDN我们提出的 Categorical Depth Distribution Network(CaDDN)原创 2022-11-17 17:02:08 · 2502 阅读 · 0 评论 -
论文精读《LSS: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting》
自动驾驶汽车感知的目标是从多个传感器提取语义表示,并将这些表示融合到一个单一的“鸟瞰”坐标框架中,以供运动规划使用。我们提出了一种新的端到端架构,可以直接从任意数量的摄像机中提取给定图像数据的场景鸟瞰图表示。我们方法背后的核心思想是将每个图像单独“Lift”成一个特征截锥。对于每个相机,然后将所有的截锥“Splat”到栅格化的鸟瞰网格中。原创 2022-11-17 16:49:20 · 6759 阅读 · 1 评论 -
论文精读《OFT: Orthographic Feature Transform for Monocular 3D Object Detection》
研究现状从单目图像中进行3D目标检测已被证明是一项极具挑战性的任务,其系统性能甚至还达不到基于雷达对应系统性能的10%。对这种性能差距的一种解释是,现有的系统完全处于由于基于透视图像的表示,物体的外观和规模随着深度和距离的变化而急剧变化,因此很难推断。本文工作:OFT在这项工作中,我们认为推理三维世界的能力是三维物体检测任务的一个基本元素。为此,我们引入正交法特征变换(orthographic feature transform),它使我们能够通过将基于图像的特征映射到正交3D空间,实现了对图像域的转义。原创 2022-11-17 16:40:48 · 1586 阅读 · 0 评论 -
无人驾驶领域的3D目标检测综述
本文的主要工作: 应用于自动驾驶领域的3D目标检测的进展背景&挑战:3D目标检测的背景以及面临的挑战方法&分析:从模型和传感器输入方面对3D目标检测的方法进行探讨。**应用:**研究了3D目标检测在驾驶系统中的应用性能分析&未来展望:对3D目标检测方法进行了性能分析,并进一步总结了多年来的研究趋势,展望了该领域的未来方向。自动驾驶,通过传感器感知周围的环境输入:多模态数据(来自摄像头的图像数据、来自LiDAR的点云、高精地图)输出:预测道路上关键要素的几何和语义信息。原创 2022-10-13 17:09:10 · 2120 阅读 · 0 评论 -
论文精读 ——《BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection》
本文工作:提出BEVDepth在这项研究中,我们提出了一种新的三维物体检测器,它具有可靠的深度估计,称为BEVDepth,用于基于摄像机的鸟瞰(camera-based BEV)三维物体检测。现有方法: 深度信息是隐式学习的通过对现有方法的深入分析,我们发现深度估计是在没有摄像机信息的情况下隐式学习的,使得它在创建伪点云时实际上采用的是假深度。BEVDepth介绍:提出矫正深度子网络和快速视图变换操作。BEVDepth利用编码的内在和外在参数获得显式的深度监督。(1) 引入。原创 2022-11-24 16:01:48 · 3533 阅读 · 4 评论