
深度学习论文阅读
文章平均质量分 92
深度学习论文阅读
瞻邈
老菜鸟一个。
展开
-
Prompt基础三维检测器 (PF3Det):结合基础模型与Prompt工程,实现LiDAR 高效融合及三维检测最优结果
本文提出了一种名为Prompt基础三维检测器(PF3Det)的新型多模态三维目标检测方法,旨在解决自动驾驶领域中LiDAR点云与相机图像融合的挑战。PF3Det通过结合基础模型编码器和软Prompt技术,有效融合了LiDAR和相机的特征,提升了检测性能。实验结果表明,在nuScenes数据集上,PF3Det在有限训练数据的情况下,显著提高了NDS和mAP指标,展示了其在三维检测中的高效性。该方法通过引入多模态基础特征和软Prompt,成功解决了模态融合中的领域差异问题,并为数据有限情况下的三维目标检测提供了转载 2025-05-17 15:45:24 · 25 阅读 · 0 评论 -
Sparse4D运行笔记
Sparse4D有三个版本,其中V1和V2版本的官方文档中环境依赖写得比较模糊且依赖库有版本冲突。原创 2025-05-17 14:01:46 · 345 阅读 · 0 评论 -
Grounding DINO
图1。(a) 封闭集物体检测需要模型检测预定义类别的对象。(b) 以前的工作将模型零样本传输到新类别以实现模型泛化。我们建议将指称表达式理解(REC)作为对具有属性的新对象的模型泛化的另一种评估。(c) 我们通过组合Grounding DINO和Stable Diffusion[42]呈现图像编辑应用程序。以彩色查看效果最佳。本文提出了一种开放集物体检测器,称为基于定位的DINO,通过将基于Transformer的检测器DINO与定位预训练相结合,可以检测任意物体,如人工输入的类别名称或指称表达等。原创 2025-04-30 23:05:54 · 959 阅读 · 0 评论 -
LiDPM:重新思考点云补全的Point Diffusion
LiDPM在IoU 0.2m(44.4 vs. 40.7)、IoU 0.1m(27.6 vs. 24.8)等指标上优于LiDiff,且生成点云的结构更清晰(图4)。将物体级扩散模型(如PVD)与场景级模型统一,证明标准DDPM框架只需适当调整初始条件(如从中间噪声步骤开始扩散),即可扩展到大规模场景,无需定制化设计。:从中间时间步 (如300步)开始扩散,初始点云由稀疏点云的复制倍叠加噪声生成,平衡了结构保真度与生成能力。:通过调整初始形状(如直线、转弯),LiDPM可生成多样化的合成场景(图5)。转载 2025-04-29 16:50:59 · 46 阅读 · 0 评论 -
BEVFusion论文阅读
融合激光雷达和相机的信息已经变成了3D目标检测的一个标准,当前的方法依赖于激光雷达传感器的点云作为查询,以利用图像空间的特征。然而,人们发现,这种基本假设使得当前的融合框架无法在发生LiDAR故障时做出任何预测,无论是轻微还是严重。这从根本上限制了实际场景下的部署能力。相比之下,在BEVFusion框架中,其相机流不依赖于LiDAR数据的输入,从而解决了以前方法的缺点。原创 2025-01-17 20:49:20 · 1790 阅读 · 0 评论 -
DETR论文阅读
传统的目标检测任务需要大量的人工先验知识,例如预定义的先验anchor,NMS后处理策略等。这些人工先验知识引入了很多人为因素,且较难处理。如果能够端到端到直接生成目标检测结果,将会使问题变得很优雅。原创 2025-01-17 20:48:03 · 1548 阅读 · 0 评论 -
Senna(桥接大型视觉语言模型和端到端自动驾驶)
值得注意的是,通过利用DriveX数据集的预训练权重并在nuScenes数据集上进行微调,Senna实现了显著的性能提升,展现出强大的跨场景泛化能力和迁移能力。理解驾驶场景中的关键因素对于安全和准确的规划至关重要。Senna采用了一种结构化的规划方法:Senna-VLM利用预训练的常识和驾驶知识进行自然语言中的高层次决策,随后Senna-E2E利用这些决策生成最终的轨迹。所提出的以规划为导向的问答(QAs)和三阶段训练策略使Senna-VLM能够在保持常识的同时做出更准确的规划决策,防止模型崩溃。转载 2025-01-13 19:32:32 · 82 阅读 · 0 评论 -
Sparse4D系列算法:迈向长时序稀疏化3D目标检测的新实践
自动驾驶是汽车产业与人工智能、物联网、高性能计算等新一代信息技术深度融合的产物,是当前全球汽车与交通出行领域智能化和网联化发展的主要方向,已成为各国争抢的战略制高点。原创 2024-11-12 14:42:11 · 1966 阅读 · 0 评论 -
PETR/PETRv2/StreamPETR论文阅读
但是在对t-1时刻的坐标进行变换后,这些坐标的值发生了变化,但是tensor结构没有发生变化依旧是(D*4,H,W),那么对于H,W的某个位置x和y来说,t时刻是一条射线上的若干点坐标,t-1时刻变换到t时刻,同样的位置x和y处是上一时刻的一一对应的坐标,这表示的就是坐标的变化,这条射线上每个点在△t内坐标的变化。t时刻的lidar坐标系和t-1时刻的lidar坐标系是不同的,是变化了的,所以需要一个不会变化的global坐标系作为桥梁。3D位置嵌入与同一视图的2D图像特征相加,生成3D位置感知功能。原创 2024-11-12 13:30:39 · 1425 阅读 · 0 评论 -
Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
在本文中,我们提出了一个完全端到端的框架用于多模态 3D 物体检测。它隐式编码将 3D 坐标转化为图像和点的标记云。通过坐标编码,简单而有效可采用主动DETR管道进行多模态融合以及端到端的学习。通过蒙面模态训练,我们的多模态检测器可以学习,具有很强的鲁棒性,即使错过了多种模式中的一种。我们希望这样的简单的管道设计可以提供更多关于端到端 3D 物体检测。原创 2024-11-08 23:48:29 · 1503 阅读 · 0 评论 -
RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
本文提出了Recurrent All-Pairs Field Transforms(RAFT), 一个光流估计的深度神经网络. RAFT 提取像素级的特征, 为所有像素建立多尺度 4D 关联信息, 通过查找4D关联信息, 循环迭代的更新光流场. 本文算法在KITTI、Sintel数据集上取得了state-of-the-art的表现. 同时, RAFT在多个数据集上有很强的泛化能力, 并且在训练速度、参数数量、推理时间上都有很高的效率.原创 2024-08-05 21:26:39 · 1186 阅读 · 0 评论 -
Text2Street:犀利的街景生成神器,车道拓扑、目标布局、天气条件全都有!
文本到图像生成,作为计算机视觉的一个重要任务,旨在仅基于文本描述生成连贯的图像。近年来,针对常见场景(如人物和目标)的文本到图像生成已经付出了很多努力。特别是随着扩散模型的出现,取得了显著进展。然而,在专业领域生成图像同样具有重要价值,包括自动驾驶、医学图像分析、机器人感知等。对于街景的文本到图像生成在自动驾驶感知和地图构建的数据生成方面具有特殊重要性,但目前仍相对未被充分探索。街景文本到图像生成作为一个尚未充分开发的任务,面临着几个严峻的挑战,可以分为三个主要方面。原创 2024-06-17 13:27:27 · 1435 阅读 · 0 评论 -
DriveWorld:一个预训练模型大幅提升检测+地图+跟踪+运动预测+Occ多个任务性能
以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注,而预训练对于提取通用表示至关重要。然而,当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务,忽视了自动驾驶作为4D场景理解任务的时序特征。这里通过引入一个基于世界模型的自动驾驶4D表示学习框架“DriveWorld”来解决这一挑战,该框架能够从多摄像头驾驶视频中以时空方式进行预训练。原创 2024-06-11 12:50:16 · 1552 阅读 · 0 评论 -
UMPNet: Universal Manipulation Policy Network for Articulated Objects
UMPNet是一个基于图像的策略网络,能够推理用于操纵铰接物体的动作序列。该策略支持6DoF动作表示和可变长度轨迹。为handle多种类的物体,该策略从不同的铰接结构中学习,并泛化到未见过的物体或类别上。该策略是以自监督探索的方式进行学习的,无需任何注释、脚本或预定义的目标。为了支持多步交互,引入了一个新的Arrow-of-Time动作属性,用以指示某个动作是否会使得物体状态倒退(到过去的状态)或前进(到未来的状态)。通过在每一个交互步中使用这个Arrow-of-Time推理,学习到的策略能够选择朝向/远离原创 2024-05-17 23:41:54 · 1574 阅读 · 0 评论 -
Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation论文阅读
很容易注意到网络中的四个箭头,这4个箭头就代表着本文最重要的四个损失函数,首先看后面的两个损失,分别对应着体素和点的输出损失(KL散度),前面两个箭头代表着基于超体素而生成的超体素内部点亲和度和体素亲和度的2范数损失。第二个模块是体素化模块;具体的实现方式为将原有的3D backbone网络的每一层进行裁剪,对每一层只保留原有通道数的一半,通过自监督蒸馏学习的方式,使得裁剪后的小模型依然能够达到原有的模型效果,提升模型的运行速度,更好地满足例如自动驾驶车辆的硬件限制。是指包含小样本的体素数量。原创 2024-05-17 20:12:31 · 2067 阅读 · 0 评论 -
RoadBEV:鸟瞰图中的道路表面重建
本文首次在鸟瞰图中重建道路表面高程,分别提出并且分析了基于单目和双目图像的RoadBEV-mono和RoadBEV-stereo。本文揭示了BEV中单目估计和双目匹配与透视图中的机制相同,但是可以通过缩小搜索范围和直接在高程方向上挖掘特征来改进。在现实世界数据集上进行的全面实验验证了所提出的BEV体积、估计头和参数设置的可行性和优越性。对于单目相机,BEV的重建性能比透视图的重建性能提高了50%。同时,在BEV中,使用双目相机的性能是使用单目相机的三倍。原创 2024-04-22 09:14:13 · 1891 阅读 · 0 评论 -
VectorMap论文阅读
自动驾驶系统需要对周围环境具有很好的理解,包括动态物体和静态高精度语义地图。现有方法通过离线手动标注来解决语义构图问题,这些方法存在严重的可扩展性问题。最近的基于学习的方法产生稠密的分割预测结果,这些预测不包含单个地图元素的实例信息,并且需要涉及许多手工设计组件的启发式后处理,以获得矢量化地图。为此,我们引入了一个端到端矢量化高精地图学习pipeline,称为 VectorMapNet。VectorMapNet 采用板载传感器观测,并预测BEV视角中一组稀疏的polyline基元,以对高精地图的几何形状进行原创 2024-04-15 09:44:10 · 1312 阅读 · 0 评论 -
Sora物理悖谬的几何解释
龙年伊始,Sora横空出世,举世震惊。Sora声称“作为世界模拟的视频生成模型”,豪气干云。有人悲观预言很多传统领域可能被颠覆,其中最为岌岌可危的可能是计算机图形学,短视频和影视娱乐行业。依随OpenAI透露出更多技术细节,很多Sora生成的物理悖谬的视频流传于网络。这里笔者依据现代数学特别是整体微分几何领域的一些观点来解释目前Sora技术路线中的缺陷,希望能够抛砖引玉,为广大AI研究和工程人员拓宽思路,共同促进提高。这里主要用流形嵌入理论、灾变理论(临界态理论)、纤维丛示性类理论、热扩散方程和最优传输方程转载 2024-04-13 19:48:50 · 157 阅读 · 0 评论 -
BEVFormer v2论文阅读
鸟瞰识别模型吸引了人们对自动驾驶的兴趣,因为它们可以自然地将多个传感器的部分原始观测集成到一个统一的整体3D输出空间中。一个典型的BEV模型建立在一个图像主干上,然后是一个视图转换模块,该模块将每个特定的图像特征提升为BEV特征,然后由BEV特征编码器和一些特定任务的头进行处理。虽然在设计视图转换器上投入了很多心血,和不断增加的下游任务并入新的识别框架中,对BEV模型中的图像主干的研究受到的关注要少得多。自动驾驶作为一个前沿、高要求的领域,将现代影像骨干内引到自动驾驶中是顺理成章的事情。原创 2024-03-23 11:09:20 · 1960 阅读 · 0 评论 -
LSS (Lift, Splat, Shoot) 论文阅读
计算机视觉算法通常将图像作为输入,并输出与坐标系无关的预测——例如分类——或与输入图像在同一坐标系中的预测——例如目标检测、语义分割或全景分割。这种模式与开箱即用的自动驾驶中的感知算法模式不匹配。在自动驾驶中,将多个传感器作为输入,每个传感器具有不同的坐标系,感知模型最终的任务是在新的坐标系——自车(ego car)坐标系——中产生预测结果,以供下游路径规划器(Planner)使用,如图.2所示。有许多简单、实用的策略可以将单图像范式(paradigm)扩展到多视图场景。原创 2024-03-17 20:14:03 · 1739 阅读 · 0 评论 -
深度学习相关文章
介绍:这个专栏是一个stanford学生做的CS183c课程的一个note,该课程是由Reid Hoffman等互联网boss级人物开设的,每节课请一位巨头公司的相关负责人来做访谈,讲述该公司是怎么scale的。介绍: 此书是斯坦福大学概率图模型大牛Daphne Koller所写,主要涉及的是贝叶斯网络和马尔科夫逻辑网络的learning和inference问题,同时又对PGM有深刻的理论解释,是学习概率图模型必看的书籍。迈克尔·I.乔丹是知名的计算机科学和统计学学者,主要研究机器学习和人工智能。原创 2024-03-14 20:42:00 · 901 阅读 · 1 评论 -
BEVFormer论文阅读
强的backbone依然是涨点的关键Local-attention要不global attention的效果要更好,global attention更加耗时,性能也不太好时序信息的必要,能够有效的提高速度上的指标不建议多任务头,多任务头在3D目标检测表现ok,但是在BEV map的语义分割中性能还是较差。6. 提问Q1:其实纯视觉到底还能走多远?能不能真正的和LiDAR的效果做到一个大差不差的一个性能。原创 2024-03-01 11:39:25 · 1344 阅读 · 0 评论 -
On the Spectral Bias of Neural Networks论文阅读
众所周知,过度参数化的深度神经网络(DNNs)是一种表达能力极强的函数,它甚至可以以100%的训练精度记忆随机数据。这就提出了一个问题,为什么他们不能轻易地对真实数据进行拟合呢。为了回答这个问题,研究人员使用傅里叶分析来研究深层网络。他们证明了具有有限权值(或训练有限步长)的深度网络天生偏向于表示输入空间上的平滑函数。具体地说,深度ReLU网络函数的特定频率分量(k)的衰减速度至少与O(k^2)一样快,宽度和深度分别以多项式和指数的方式帮助建模更高的频率。原创 2024-02-04 23:58:26 · 1947 阅读 · 0 评论 -
The Loss Surfaces of Multilayer Networks论文阅读
对于大规模网络,大部分局部极小值是等价的,且在测试集上性能相似;在小规模网络上发现较差的局部极小值(虽然局部极小,但损失值依然较大)的概率是非零的,而且这个概率随着网络的规模是衰减的。纠结于在训练集上找到全局极小值在实际中是毫无意义的,而且可能导致过似合。原创 2023-01-22 21:03:32 · 1605 阅读 · 0 评论 -
TVM: End-to-End Optimization Stack for Deep Learning论文阅读
要让AI芯片支持深度学习架构,要将深度学习架构等部署到芯片上就需要将深度学习架构中的这些代码编译成芯片支持的指令集,所以要从头到尾设计一套软件栈,做一套全栈的优化。所以现在的许多深度学习的架构只能在某一些厂商的GPU设备上获得加速,这种支持依赖于特定的GPU库,当未来越来越多的加速器出现时,硬件设备的厂商对于深度学习架构的支持便会变得越来越困难。原来的框架:PyTorch、Tensorflow运用于GPU加速,存在很大的局限,部署运用其他平台需要很多手动的工作原创 2023-01-21 22:21:17 · 1823 阅读 · 0 评论 -
深度学习资料大全
Free Online BooksDeep Learning66by Yoshua Bengio, Ian Goodfellow and Aaron Courville Neural Networks and Deep Learning42by Michael Nielsen Deep Learning27by Microsoft Research Deep Learning Tutorial23by LISA lab, University of Montreal Deep Learn...原创 2021-05-24 10:34:39 · 234 阅读 · 1 评论