bev
文章平均质量分 81
骆驼穿针眼
这个作者很懒,什么都没留下…
展开
-
【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文: https://arxiv.org/pdf/2308.09616代码: https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著原创 2024-08-13 11:58:58 · 1023 阅读 · 0 评论 -
【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
query 级别的时许融合原创 2024-08-06 13:33:28 · 606 阅读 · 0 评论 -
【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
引入任务特定的查询(task-specific queries),例如车道检测的3D锚定车道和BEV分割的seg查询,这些查询在不同的空间中初始化,并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐(3D Coordinates Alignment)实现不同帧之间的时间对齐,将上一帧的3D坐标转换到当前帧的坐标系中,以增强目标定位和速度估计。改进原有的3D位置嵌入(3D PE),通过FPE使3D PE依赖于输入图像数据,利用2D图像特征提供的信息(如深度)来指导查询学习。原创 2024-08-03 16:41:09 · 1056 阅读 · 0 评论 -
【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码
在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。原创 2024-07-03 21:19:58 · 1182 阅读 · 1 评论 -
【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal
论文:https://arxiv.org/pdf/2404.04561v1代码:https://github.com/Rorisis/Co-Occ?原创 2024-06-20 12:05:25 · 967 阅读 · 0 评论 -
BEV(二)多frames融合
当前帧的LIDAR数据**原创 2024-06-18 17:50:11 · 842 阅读 · 0 评论 -
BEV 中 multi-frame fusion 多侦融合(一)
dataroot: 数据集的根路径,类型为字符串,默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组,而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息,并将其转换为所需的格式。原创 2024-06-18 17:44:20 · 1036 阅读 · 0 评论 -
【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction
问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。原创 2024-06-18 13:17:55 · 1241 阅读 · 0 评论 -
LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图(调试)
根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。原创 2024-05-22 11:45:44 · 219 阅读 · 0 评论 -
LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图
gen_dx_bx:函数用于生成网格参数。self.downsample:是图像下采样因子,用于减少计算复杂度。self.camC:是相机特征通道数。self.frustum:是由create_frustum方法创建的视锥体。CamEncode和BevEncode是两个特征编码模块。原创 2024-05-22 10:28:23 · 210 阅读 · 0 评论 -
使用脚本批量下载nuscens数据集
使用脚本来批量下载完整数据集原创 2024-03-11 18:13:59 · 974 阅读 · 0 评论 -
BEV感知算法的概念
bev感知算法概念的简要介绍原创 2023-08-31 10:47:50 · 442 阅读 · 0 评论 -
1.2 BEV感知算法数据形式
本文来自的国内首个BEV感知全栈系列学习教程什么是图像1. 图像是由相机生成的,是将三维世界 中的坐标点(单位为米)映射到二维 图像平面(单位像素)2. 图像的优势在于:纹理丰富、成本低3. 基于图像的任务、基础模型相对成熟 和完善,比较容易扩展到BEV感知算 法中。图像 : H*W*3bev fusion什么是点云?点云的基本组成单元是点,点组成的集合叫点云。点云有什么特点稀疏性 (黑色部分是空集,也有前后车遮挡,点云数远少近多的情况)无序性是一种3D表征(深度)原创 2023-08-31 12:41:46 · 180 阅读 · 0 评论