自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(781)
  • 资源 (3)
  • 收藏
  • 关注

转载 LiftFeat:3D几何感知的局部特征匹配新颖网络 (ICRA‘25)

LiftFeat是一种创新的轻量级网络,旨在通过融合2D和3D信息来增强极端条件下的局部特征匹配。该方法利用深度图提取的表面法线信息,结合2D描述符,通过3D几何感知特征增强模块(3D-GFL)提升特征区分能力。LiftFeat网络架构包括共享特征编码模块和多任务头,用于预测关键点、描述符和表面法线。训练过程中,使用单目深度估计模型生成表面法线标签,并通过关键点预测、表面法线估计和描述符损失进行监督。实验结果表明,LiftFeat在相对位姿估计、单应性估计和视觉定位等任务中表现出色,尤其在光照剧烈变化、低纹

2025-05-17 18:19:35 112

转载 Prompt基础三维检测器 (PF3Det):结合基础模型与Prompt工程,实现LiDAR 高效融合及三维检测最优结果

本文提出了一种名为Prompt基础三维检测器(PF3Det)的新型多模态三维目标检测方法,旨在解决自动驾驶领域中LiDAR点云与相机图像融合的挑战。PF3Det通过结合基础模型编码器和软Prompt技术,有效融合了LiDAR和相机的特征,提升了检测性能。实验结果表明,在nuScenes数据集上,PF3Det在有限训练数据的情况下,显著提高了NDS和mAP指标,展示了其在三维检测中的高效性。该方法通过引入多模态基础特征和软Prompt,成功解决了模态融合中的领域差异问题,并为数据有限情况下的三维目标检测提供了

2025-05-17 15:45:24 64

原创 Sparse4D运行笔记

Sparse4D有三个版本,其中V1和V2版本的官方文档中环境依赖写得比较模糊且依赖库有版本冲突。

2025-05-17 14:01:46 390

转载 RDD: Robust Feature Detector and Descriptor using Deformable Transformer

本文介绍了一种名为RDD的鲁棒特征检测与描述框架,该框架通过可变形Transformer技术,在三维计算机视觉任务中实现了高效的关键点检测和描述符提取。RDD采用双分支架构,分别使用全卷积网络和基于Transformer的结构来处理关键点检测和描述符提取,有效解决了传统方法在大基线相机运动、显著光照变化和尺度差异等复杂条件下的不足。通过可变形注意力机制,RDD能够选择性关注关键位置,降低计算复杂度,同时保持几何不变性和全局上下文的学习能力。实验结果表明,RDD在多个标准基准测试上均优于当前最先进的方法,并在

2025-05-16 14:44:24 68

原创 VSCode插件Python Image Preview使用笔记

Python Image Preview支持numpy pillow opencv-python matplotlib seaborn plotly imageio skimage tensorflow pytorch等library的可显示为图像的变量。这里以matplotlib官方的一个热力图例程为例,来展示如何使用Python Image Preview插件在远程调试时查看绘制的实验图像。

2025-05-01 11:41:36 615

原创 Grounding DINO

图1。(a) 封闭集物体检测需要模型检测预定义类别的对象。(b) 以前的工作将模型零样本传输到新类别以实现模型泛化。我们建议将指称表达式理解(REC)作为对具有属性的新对象的模型泛化的另一种评估。(c) 我们通过组合Grounding DINO和Stable Diffusion[42]呈现图像编辑应用程序。以彩色查看效果最佳。本文提出了一种开放集物体检测器,称为基于定位的DINO,通过将基于Transformer的检测器DINO与定位预训练相结合,可以检测任意物体,如人工输入的类别名称或指称表达等。

2025-04-30 23:05:54 995

转载 车道拓扑推理演进:从程序化建模到车载传感器

车道拓扑推理技术在高精(HD)建图和自动驾驶应用中发挥着至关重要的作用。虽然近年来在该领域中取得了重大进展,但是很少有文献综合概述这些工作。本项调研系统性地回顾了车道拓扑推理方法的演变和现状,将其分为三种主要范式:基于程序化建模的方法、基于航拍图像的方法和基于车载传感器的方法。本文分析了从早期基于规则的方法到现代基于学习的解决方案的进展,这些基于学习的解决方案利用了transformers、图神经网络(GNNs)和其它深度学习架构。

2025-04-29 18:04:36 55

转载 LiDPM:重新思考点云补全的Point Diffusion

LiDPM在IoU 0.2m(44.4 vs. 40.7)、IoU 0.1m(27.6 vs. 24.8)等指标上优于LiDiff,且生成点云的结构更清晰(图4)。将物体级扩散模型(如PVD)与场景级模型统一,证明标准DDPM框架只需适当调整初始条件(如从中间噪声步骤开始扩散),即可扩展到大规模场景,无需定制化设计。:从中间时间步 (如300步)开始扩散,初始点云由稀疏点云的复制倍叠加噪声生成,平衡了结构保真度与生成能力。:通过调整初始形状(如直线、转弯),LiDPM可生成多样化的合成场景(图5)。

2025-04-29 16:50:59 107

转载 面向大规模户外场景的多源异构点云精细配准方法

为全面表征大规模户外场景的三维信息,多平台、多传感器、多时相的激光点云采集与配准技术快速发展。然而受户外环境复杂性及观测平台硬件性能差异影响,空间坐标系不一致的多源异构点云在精确高效配准方面面临巨大挑战,包括显著噪声干扰、遮挡、数据缺失及几何异构性等问题。本文提出基于全连接图和热传导模型的异构点云精细配准方法:首先采用高斯概率分布框架对分类特征基元建立初始对应关系;继而通过低级语义关联与刚性变换相容性检测快速剔除异常值导致的误匹配;

2025-04-29 16:32:43 73

转载 FACT:多项式错位分类用于点云配准

我们提出FACT方法,用于预测已配准激光雷达点云对的配准质量(即配准误差)。该方法可应用于大规模自动配准3D模型的质量保证。FACT从配准点云对中提取局部特征,通过基于点变换器的网络处理这些特征以预测失准类别。我们将前人研究的二元配准误差分类推广为多项式失准分类,为此设计了结合交叉熵和Wasserstein距离的自定义分类回归损失函数,实验证明其性能优于直接回归和先前的二元分类。

2025-04-29 16:29:42 50

转载 EdgeRegNet:基于边缘特征的图像与激光雷达点云多模态配准网络

跨模态数据配准长期以来是计算机视觉领域的关键任务,在自动驾驶与机器人技术中具有广泛应用。准确鲁棒的配准方法对于对齐不同模态数据至关重要,构成多模态传感器数据融合的基础,能提升感知系统的准确性与可靠性。相机采集的2D图像与激光雷达(LiDAR)采集的3D点云间的配准任务通常被视为视觉位姿估计问题。现有方法通过利用不同模态的高维特征相似性识别像素-点对应关系,再采用最小二乘法等位姿估计技术。但由于计算限制,现有方案常需对原始点云和图像数据进行降采样,不可避免地导致精度损失。

2025-04-29 16:24:44 90

转载 大模型核心技术:微调、推理与优化指南

大语言模型(LLM)是非常庞大的深度学习模型,它们在大量数据上进行预训练。其底层的Transformer是一组神经网络,由具有自注意力能力的编码器和解码器组成。编码器和解码器从文本序列中提取含义,并理解其中单词和短语之间的关系。Transformer神经网络架构允许使用非常大的模型,这些模型通常包含数千亿个参数。如此大规模的模型可以摄取大量数据,这些数据通常来自互联网,也可以来自如包含超过500亿个网页的Common Crawl,以及约有5700万页面的维基百科等来源。

2025-04-28 17:13:42 328

转载 世界模型概念起源、常见误解、和自动驾驶的关系

在这个过程中,我们会根据真实世界对推测规律的反馈,来增加、删除和调整我们脑海中的基本元素,有些需要新增或者新发明(很多有用的数学概念和工具是纯粹的人类发明),有些需要抛弃(比如以太,比如燃素),有些基本元素需要调整,比如虚数概念起先认为是imaging想象的,后来发现其实是数平面上的二维坐标,完全是真实而非想象的。所谓4D 世界模型,意味着不仅要生成逼真的三维空间场景,还要准确地把握和生成时间维度上的变化,也就是三维物体的时间循序和时间速度,包括物体的运动、场景的动态演化等等。具体步骤如下两步:。

2025-04-28 15:06:24 75

原创 具身智能中 VLA 主流方案全解析:技术总结与未来展望

本文详细总结了具身智能中 VLA 的主流方案,包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍,对比了它们在模型架构、动作类型、训练目标等方面的特点,得出了相应的结论共识。同时,探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务执行、基础模型、多智能体协作以及安全伦理等挑战,并展望了未来的发展方向。

2025-04-28 11:57:09 879

原创 child process terminated with code错误码

负数表示子进程被操作系统信号终止,绝对值对应信号编号。:命令未找到(Shell 环境中常见)。终止(通常是内存访问错误,如段错误)。:命令未找到(如拼写错误的命令)。:通用错误(如脚本语法错误)。

2025-04-27 13:32:28 181

转载 智驾技术范式变迁:从规则驱动到知识驱动

EMMA基于多模态大语言模型(MLLM)构建,通过将所有非传感器输入(如导航指令和车辆状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大语言模型中的世界知识,在实现端到端运动规划基础上,通过混合训练,还将EMMA构建为一个通才模型,实现3D 世界感知,识别周围物体/道路图/交通条件等功能。浮夸与务实交织的行业生态,使得技术真伪的辨识愈发困难。需要强调的是,行业内常说的两段式端到端(即感知模型化+预测规划模型化,但两个模型之间的接口仍然采用人为定义),不属于本文讨论的端到端系统。

2025-04-27 13:02:21 155

转载 Eigen::Map

Eigen库是一个非常常用的线性代数库。Eigen库中的Map类是一个非常有用却又很容易被忽略的类,它不同于C++ STL中的map。Eigen::Map 是一个非常有用的类模板,它的,而无需进行数据的复制操作。这种方式使得你可以直接操作已有的数据,避免了额外的内存开销和数据复制带来的性能损耗。映射后的eigen数据类型如常见的Eigen::VectorXd,Eigen::MatrixXd等等MapOptions指针所指对象的内存对齐方式,默认值为 AlignedStrideType。

2025-04-27 12:36:47 96

转载 LightLoc:快速高效的户外激光雷达定位新方法

论文标题:LightLoc: Learning Outdoor LiDAR Localization at Light Speed代码:https://github.com/liw95/LightLoc论文:https://arxiv.org/abs/2503.17814是一种新型户外激光雷达(LiDAR)定位方法,旨在解决现有场景坐标回归方法训练时间过长的问题。LightLoc 通过冻结场景无关的特征主干网络并仅训练场景特定的预测头来加速学习过程。

2025-04-09 13:56:44 137

转载 双目深度估计大模型 FoundationStereo

本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。

2025-04-09 13:43:45 155

原创 文字识别 (OCR) 工具

夸克是一款新型的浏览器,因为它界面简洁,不会有很多广告的优点。再加之它自带网盘的功能,现在使用的人也是特殊多。在它的【扫一扫】功能中,有一个【提取文字】的功能可以帮助我将图片上的文字进行提取。

2025-04-09 13:22:12 526

原创 Ubuntu 安装 Beyond-Compare 4

本文介绍了在Ubuntu系统上安装Beyond Compare 4的完整过程。Beyond Compare 是一款强大的文件和文件夹比较工具,广泛应用于源代码管理、版本控制以及文件同步等场景。本文首先介绍了Beyond Compare 4的主要功能和特点,然后详细阐述了在Ubuntu上安装该软件的步骤,包括下载安装包、配置软件源、安装依赖包以及执行安装命令等。此外,文章还提供了安装过程中可能遇到的问题及解决方案,帮助读者顺利安装并享受Beyond Compare 4带来的便捷与高效。

2025-04-09 13:18:27 8415 4

转载 跨数据集配准SOTA,解锁LiDAR点云配准中的泛化能力

本文揭示了LiDAR场景中不一致的几何表示导致交叉注意力模块限制了网络的泛化能力。基于这一发现,我们提出了UGP,一种剪枝框架,旨在增强LiDAR点云配准的泛化能力。UGP消除了交叉注意力,引入了渐进式自注意力模块和BEV特征提取模块,使网络能够优先考虑局部空间关联并捕捉场景元素的语义信息。这减少了点云中的歧义,并提升了泛化性能。大量实验表明,我们的方法有效应对了不同数据分布带来的挑战,包括跨距离和跨数据集场景。p_ip_j。

2025-04-08 23:17:01 161

转载 D-LI-Init: LiDAR-惯性系统动态初始化方法

D-LI-Init是一种LiDAR-惯性系统的动态初始化方法。实验证明,该方法适用于多种平台,能够在不依赖特定运动模式的情况下提供准确的初始值。局限性:该方法的性能高度依赖于LiDAR里程计的精度未来工作:将进一步研究如何提升LiDAR里程计的准确性。

2025-04-08 22:21:49 105

转载 MINIMA:通用图像匹配

本文提出了一个名为MINIMA的统一匹配框架,适用于任何跨模态情况。这是通过使用有效的数据引擎填补数据鸿沟来实现的,该引擎可以自由地将廉价的RGB数据扩展到大型多模态数据。构建的MD-syn数据集包含了丰富的场景和精确的匹配标签,并支持任何先进匹配模型的训练,显著提高了在未见跨模态情况下的跨模态性能和零样本能力。

2025-03-28 10:19:20 109

转载 KISS-SLAM:极简设计、极少参数调整、快于传感器帧率

KISS-SLAM是一种简单但高效的 LiDAR SLAM 方法。该方法完全基于 LiDAR 扫描数据,无需额外传感器即可计算机器人轨迹和环境地图。我们的方法采用极简设计,能够适用于各种复杂环境,如高速公路行驶、手持设备和电动平衡车。此外,该系统不依赖特定的测距技术或扫描模式,仅假设点云数据是机器人在环境中移动时连续生成的。我们实现并评估了该方法,并与现有技术进行了比较,以支持本文提出的所有核心论点,同时公开了代码。

2025-03-28 10:12:38 127

转载 旷视科技和东北大学联合提出:多LiDAR与相机系统的无靶标内外参联合标定方法

精确的时空标定是多传感器融合的前提,然而由于传感器通常不同步,并且相机与LiDAR的视场范围不重叠,这为内外参标定带来了挑战。为了解决这一问题,本文提出了一种基于连续时间和捆集调整的标定流程,能够同时完成内参和外参(包括6自由度的变换和时间偏移)的标定。此方法不依赖视场重叠或标定板,首先通过运动结构(SfM)建立相机间的数据关联,完成相机内参的自标定。接着通过自适应体素地图构建LiDAR间的数据关联,在地图内优化外参标定。最后将LiDAR地图的强度投影与相机图像进行特征匹配,实现内参与外参的联合优化,此流程

2025-03-27 23:19:53 106

转载 DualQuat-LOAM:基于双四元数参数化的高精度激光雷达里程计与建图方法

我们提出了DualQuat-LOAM激光雷达里程计方法,该方法基于边缘、表面和稳定三角形描述符(STD)的双四元数参数化。这种方法能够以紧凑的形式表示系统的旋转和平移。为实现这一目标,我们对优化器也进行了双四元数参数化,从而确保了姿态估计过程中的完全一致性。实验结果表明,该方法仅使用激光雷达传感器的点云即可完成姿态估计,无需额外传感器的集成。

2025-03-27 23:09:16 296

原创 模型训练技巧

模型太简单(欠拟合):增加层数、神经元数量,或使用更复杂的架构(如ResNet、Transformer)。使用自动化工具(如Grid Search、Random Search、贝叶斯优化)搜索最佳超参数。模型太复杂(过拟合):减少层数、神经元数量,或添加正则化(L1/L2正则化、Dropout)。增加正则化(L1/L2、Dropout、Early Stopping)。使用预训练模型(如BERT、ResNet、GPT)进行迁移学习。集成学习(如Bagging、Boosting、模型融合)。

2025-03-27 16:54:48 485

原创 学习率调度器 (Learning Rate Scheduler)

学习率调度器(Learning Rate Scheduler)是一种在训练过程中动态调整学习率的工具。学习率是优化器中的一个超参数,它决定了模型参数在每次更新时的调整步幅。合适的学习率可以加速模型收敛,而不合适的学习率可能导致训练过程不稳定或收敛速度慢。常见的学习率调度器StepLR:每隔一定的步数将学习率乘以一个衰减因子。ExponentialLR:每个epoch将学习率乘以一个固定的衰减因子。CosineAnnealingLR:学习率按照余弦函数曲线变化,适用于周期性训练。

2025-03-27 16:34:24 637

转载 神经网络训练:模型参数初始化方法详解

在训练过程中,梯度下降算法试图最小化损失函数,但由于对称性,很难确定哪个参数配置是最优的,即梯度下降算法可能会陷入局部最小值或平坦区域,使网络无法得到更好的优化结果,因为在这些区域中,梯度几乎为零,导致优化过程停滞不前。当我们训练深度神经网络时,梯度的传播是非常关键的。He初始化是一种常用的参数初始化方法,它针对使用Rectified Linear Units (ReLU)激活函数的神经网络进行了优化,其核心思想是,根据每一层的激活函数的特性来设置权重的初始范围,以更好地平衡信号和梯度的传播。

2025-03-27 15:56:08 118

原创 分布式训练

分布式训练的动机很简答:单节点算力和内存不足,因此不得不做分布式训练。训练机器学习模型需要大量内存。假设一个大型神经网络模型具有 1000 亿的参数(LLM 时代有不少比这个参数量更大的模型),每个参数都由一个 32 位浮点数(4 个字节)表达,存储模型参数就需要 400GB 的内存。在实际中,我们需要更多内存来存储激活值和梯度。假设激活值和梯度也用 32 位浮点数表达,那么其各自至少需要 400GB 内存,总的内存需求就会超过 1200GB(即 1.2TB)。

2025-03-27 11:29:22 890

转载 ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking论文阅读

该研究介绍了一种稳健的跟踪框架,通过概率整合将光流整合与长期对应关系相结合,以实现动态视频序列中准确且平滑的点跟踪。通过引入目标级过滤、双向概率整合以及几何感知特征提取,该研究的方法有效减轻了漂移问题,处理了遮挡情况,并重新定位了暂时消失的点。该研究的方法在处理复杂运动和长时间间隔方面优于传统方法,展示了整合短期和长期信息以实现可靠跟踪的优势。尽管该研究的方法提供了稳健的跟踪,但其对关键点提取的测试时训练的依赖相比监督方法降低了效率——这是自监督跟踪方法的常见局限。

2025-03-23 16:16:56 112 1

转载 Building Rome with Convex Optimization论文阅读

我们提出了XM,一个可扩展且无需初始化的全局捆绑调整求解器,利用学习的深度和凸优化。通过将缩放捆绑调整放松为凸SDP,并使用Burer-Monteiro分解和基于CUDA的信任区域黎曼优化器高效地解决它XM在极端规模上实现了可证明的全局最优性。集成到XM-SfM管道中后,它保持了现有SfM方法的准确性,同时显著提高了速度和可扩展性。限制和未来工作。首先,虽然我们的XM求解器在速度上优于基线,但它可能对噪声和异常值敏感。未来的工作包括改进过滤过程和开发更好的方法来处理异常值。

2025-03-23 15:54:13 99 1

原创 结构化思维

那么到底是什么是结构化思维呢?我给结构化思维的定义就是逻辑+套路。绝大多数人在撰写工作总结时,都会将总结分为两个部分:一是这一年的工作情况,二是下一年的工作设想。这看似是有结构的,但很可能写成流水账,把自己一年的工作一条条罗列上去,没有任何逻辑关系,也没有任何分类归纳,让人看不到结论,抓不住重点。比如,你担任公司的招聘专员,这一年你一共赶往了16个城市,在40所高效开办了40余场校园宣讲活动,与26所高校达成战略合作,招聘应届毕业生共计256名。

2025-02-06 15:16:09 1972

原创 SAM2运行笔记

文章标题:SAM 2: Segment Anything in Images and Videos。

2025-01-25 15:20:29 581

原创 NumPy矩阵逐元素相乘与矩阵乘法

NumPy中的广播机制是一种非常强大的功能,可以允许不同形状的数组进行运算。广播机制使得数组的运算更加灵活、简洁,避免了手动调整数组形状的需求。但是,广播机制尤其使用的条件,什么时候两个不同形状的数组可以直接进行运算,什么时候又不能,有些老手有时候也需要稍微停顿、思考。 numpy.array的运算*表示矩阵逐元素相乘上式中把最后一维相加两个打印结果是相同的把最后一维相加两个打印结果是相同的

2025-01-21 15:29:08 348

原创 NumPy广播机制

NumPy中的广播机制是一种非常强大的功能,可以允许不同形状的数组进行运算。广播机制使得数组的运算更加灵活、简洁,避免了手动调整数组形状的需求。但是,广播机制尤其使用的条件,什么时候两个不同形状的数组可以直接进行运算,什么时候又不能,有些老手有时候也需要稍微停顿、思考。

2025-01-21 14:18:29 649

原创 相机模型Omnidirectional Camera(全方位摄像机)

它是由Geyer和Daniilidis(后来由Barreto和Araujo[8]改进)在2000年开发的,他们的优点是提出了一个包括所有三种类型的中央折反射相机的模型,即使用双曲镜、抛物面镜或椭圆镜的相机。本节的目标是找到场景点的观看方向和其对应图像点的像素坐标之间的关系。Geyer和Daniilidis在2000年发表的具有里程碑意义的论文中指出,每一种折反射(抛物线、双曲线、椭圆线)和标准透视投影都等价于从一个以单一视点为中心的球体到一个以垂直于平面且距离较远的平面为投影中心的平面的投影映射。

2025-01-17 20:52:17 2180 1

原创 BEVFusion论文阅读

融合激光雷达和相机的信息已经变成了3D目标检测的一个标准,当前的方法依赖于激光雷达传感器的点云作为查询,以利用图像空间的特征。然而,人们发现,这种基本假设使得当前的融合框架无法在发生LiDAR故障时做出任何预测,无论是轻微还是严重。这从根本上限制了实际场景下的部署能力。相比之下,在BEVFusion框架中,其相机流不依赖于LiDAR数据的输入,从而解决了以前方法的缺点。

2025-01-17 20:49:20 1814 1

原创 DETR论文阅读

传统的目标检测任务需要大量的人工先验知识,例如预定义的先验anchor,NMS后处理策略等。这些人工先验知识引入了很多人为因素,且较难处理。如果能够端到端到直接生成目标检测结果,将会使问题变得很优雅。

2025-01-17 20:48:03 1559 1

GitKraken.zip

非常好用的git工具

2021-02-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除