瞻邈-CSDN博客

转载 RAP：无需显式匹配，配准任意3D点云数据！

本文提出了一种基于流匹配的单阶段多视角点云配准方法RegisterAnyPoint(RAP)。该方法将配准视为条件生成过程，通过Transformer模型预测连续速度场，直接将噪声点云转换为配准状态，避免了传统两阶段流程中的成对匹配和位姿图优化。创新性地引入刚性约束采样选择策略，并在17个异构数据集(超10万样本)上训练，使模型具备跨场景、尺度和传感器的泛化能力。实验表明，该方法在低重叠场景下优于现有技术，为零样本泛化提供了新思路，为SLAM、三维重建等任务提供了有力支持。未来可探索实时优化和非刚性变换扩展

2026-01-07 23:19:32 69

转载 RCM：特征匹配

本文提出了一种新型特征匹配方法RCM（Raising the Ceiling of Matching），通过动态视图切换、无冲突粗匹配和半稀疏范式三大创新点，显著提升了特征匹配的理论上限和实际性能。针对小尺度图像匹配点稀缺、密集方法匹配冲突和稀疏方法依赖关键点可重复性三大挑战，RCM分别提出了解决方案：动态切换源/目标图像以增加可匹配点、采用多对一匹配策略避免冲突、结合半稀疏范式与由粗到细架构。实验表明，RCM在大视角变化场景下性能优于LoFTR和MatchFormer达9%-12%，轻量版RCMLite比

2026-01-02 12:09:33 86

转载如何处理自动驾驶感知传感器脏污问题？

自动驾驶系统依赖多种传感器感知环境，但传感器易受泥水、油污等污染物影响，导致数据偏差和安全风险。硬件层面需优化传感器布局，采用疏水涂层和主动清洁系统，并考虑冗余设计。软件方面应建立传感器状态检测机制，实现多传感器交叉验证和动态数据融合，在污染时启动降级策略。运营管理上需制定规范维护流程，提供清晰用户提示，并完善事故责任界定。只有将传感器污染视为常态工况，通过硬件防护、软件容错和制度保障的综合措施，才能确保自动驾驶系统在复杂环境中的安全运行。

2025-12-27 00:01:13 111

转载一文详解TEASER++：革命性的3D点云配准技术

TEASER++是一种革命性的点云配准方法，通过创新技术解决传统方法对异常值敏感的问题。其核心思想包括：1）采用截断最小二乘（TLS）代价函数限制异常值影响；2）将复杂配准问题解耦为尺度、旋转和平移三个子问题；3）使用最大团剪枝和图论方法高效过滤异常值；4）通过渐进非凸优化（GNC）实现快速求解。该方法在激光SLAM、多传感器标定和医学影像配准等场景中展现出卓越性能，即使在70%异常值情况下仍能实现精确配准，且具有毫秒级计算速度。

2025-12-26 23:50:31 93

转载激光雷达点云中“鬼影”和“膨胀”的形成原因和解决方案

激光雷达在自动驾驶中面临高反射物体干扰问题，导致点云数据出现"鬼影"和"膨胀"误差。高反射表面会沿原路强烈反射激光信号，使接收器捕获异常强回波，产生虚假物体轮廓或将真实物体轮廓放大。这些误差源于多次反射、通道间串扰等现象，使点云呈现规律性错误分布，严重影响障碍物识别精度。解决这些问题对提升自动驾驶感知可靠性至关重要。

2025-12-26 23:38:53 93

原创 Ubuntu 命令行使用百度网盘

本文介绍了在Ubuntu系统上使用bypy工具快速传输百度网盘文件到服务器的方法。由于服务器无法挂代理且xftp传输速度慢，作者推荐使用百度网盘会员配合bypy命令行工具。具体步骤包括：1)通过pip安装bypy；2)运行bypyinfo获取授权码完成登录；3)使用bypydownload命令下载网盘文件。这种方法有效解决了服务器直接下载受限的问题，显著提高了大文件传输效率。参考链接提供了更详细的使用说明。

2025-11-20 11:20:43 258

原创 Ubuntu 24.04 安装中文输入法

摘要：本文详细介绍在Ubuntu24.04安装中文输入法的完整流程。首先通过命令行安装fcitx输入法框架，然后在系统设置中管理安装语言包并选择中文支持，最后在键盘设置中添加具体的中文输入法。文章提供了从软件安装、语言包配置到输入法选择的分步指导，并提示可能需要系统重启。适合不同水平的Ubuntu用户参考，帮助实现流畅的中文输入体验。（96字）

2025-11-14 22:38:38 1243

原创 FASTer运行笔记

FASTer框架安装与使用指南本指南提供了长时序激光雷达3D目标检测框架FASTer的完整安装和使用流程。该框架采用Transformer架构，通过焦点Token获取与自适应缩放机制，有效解决了长序列数据处理中的计算冗余问题。 1. 环境配置创建Python 3.8虚拟环境安装PyTorch 2.0及CUDA 11.8支持配置关键依赖项：numpy、tensorflow、spconv等通过setup.py完成框架安装 2. 数据集准备 NuScenes数据集：下载官方数据集并规范目录结构安装n

2025-11-13 12:00:13 1136

原创 LION运行笔记

LION是华中科技大学与百度团队提出的新型3D点云检测框架，通过引入线性循环神经网络(LRNN)显著提升长序列建模能力。安装需配置Python3.8环境，安装PyTorch等基础依赖及点云处理相关库（如spconv-cu118）。数据准备基于NuScenes数据集，需下载并按照指定目录结构组织数据，安装nuscenes-devkit(1.0.5)后运行数据处理脚本生成标注信息。该框架通过线性RNN有效平衡计算效率与检测精度，为点云处理提供新思路。

2025-11-11 00:15:25 568

原创 seqtrack3d 运行笔记

本文介绍了在conda环境中安装SeqTrack3D所需依赖的完整流程。首先创建并激活Python 3.9的conda环境，然后依次安装PyTorch系列(2.1.0版本)、NumPy等基础库。接着配置Pointnet2_PyTorch项目及其依赖项，并安装pomegranate等特定版本库。最后完成包括pyquaternion、pytorch-lightning、nuscenes-devkit等辅助工具链的安装。整个安装过程通过指定版本号确保环境兼容性，为3D目标跟踪系统SeqTrack3D搭建了完整的运

2025-11-05 11:17:14 237

转载清华开源 VLA 数据集：面向自动驾驶极端场景，安全提升35%

《ImpromptuVLA：面向非结构化道路的开放权重与数据驱动的视觉-语言-动作模型》提出了一套专为解决自动驾驶在非结构化场景（如乡村道路、施工区域等）数据匮乏问题的大规模数据集。该数据集从8个公开来源精选8万条视频片段，涵盖边界模糊道路、临时交通规则变动等四大挑战场景，采用视觉-语言模型进行多任务标注并经人工核验。实验表明，基于该数据集训练的模型在NeuroNCAP测试中碰撞率降低7%（72.5%→65.5%），轨迹预测L2误差达0.30m，接近专用方法性能。研究为开发适应复杂场景的自动驾驶系统提供了关

2025-10-19 18:48:36 386

转载 Python 数据验证库 Validators

Python的Validators库简化了数据验证流程，支持邮箱、URL、IP等常见格式校验。通过简洁API实现快速验证，如validators.email("test@example.com")返回True/False。支持自定义规则，适合表单验证、API参数检查等场景。相比其他验证工具更轻量专注，显著提升开发效率。安装简单（pip install validators），是Python数据验证的便捷解决方案。

2025-10-18 22:51:58 169

转载 FastTracker：从“识人”到“识万物”，一个更通用的多目标跟踪框架

FastTracker：新一代通用多目标跟踪框架摘要：针对当前多目标跟踪系统在非行人场景泛化能力不足的问题，FastTracker提出创新解决方案。该系统采用"检测后跟踪"范式，创新性地引入两项关键策略：1)"遮挡感知"机制通过速度抑制和检测框放大处理严重遮挡问题；2)"道路结构感知"利用语义场景先验修正轨迹。实验表明，FastTracker在MOT17/20基准测试中HOTA分别达66.4/65.7，同时发布了包含9类交通目标的FastTrac

2025-10-17 23:42:15 212

转载解析 Flash Attention 3

FA3是FlashAttention系列的最新优化版本，针对Hopper架构（如H100）的新特性进行了深度适配。相比FA2在H100上仅35%的硬件利用率，FA3通过以下创新实现了显著性能提升：1）利用WGMMA指令实现异步GEMM计算，与softmax运算重叠；2）采用TMA硬件单元进行高效数据搬运；3）引入WarpSpecialization和Ping-Pong调度策略优化计算资源分配；4）支持FP8低精度运算并创新性地解决数据排布问题。实验显示，FA3在BF16精度下达到850TFLOPS（提升2.

2025-10-16 23:07:54 214

转载详解 MoE 模型

摘要：混合专家模型（MoE）通过稀疏架构实现模型规模与计算效率的解耦，成为构建万亿参数大模型的关键技术。其核心思想是动态激活部分专家网络处理输入，大幅降低计算成本。尽管面临训练复杂、负载不均衡等挑战，借助辅助损失、噪声门控等技术优化，MoE已在NLP、视觉和多模态领域展现出卓越性能（如Mixtral 8x7B以更低成本超越Llama 2 70B）。未来，随着分布式训练和边缘部署技术的成熟，MoE有望进一步推动AI模型的高效扩展与应用落地。（149字）关键词：混合专家模型、稀疏计算、大语言模型、条件计算、

2025-10-16 22:53:19 177

转载 Top-k 和 Top-p 有什么区别

Top-k和Top-p是文本生成中的两种采样方法。Top-k固定选择概率最高的k个词随机采样，确保连贯性但可能不够灵活；Top-p则动态选择累计概率超过p的词，适配模型当前置信度，生成更自然多样。Top-k适合需要稳定输出的场景，Top-p追求创造性和流畅度。实际应用中，Top-p通常更优，可配合温度参数调节多样性。两种方法都旨在平衡生成质量与多样性，是控制大模型文本输出的核心技术。理解其原理和区别对优化生成效果至关重要。

2025-10-10 13:04:41 183

转载 DINOv3上手指南：改变视觉模型使用方式，一个模型搞定分割、检测、深度估计

DINOv3是Meta推出的突破性自监督视觉模型，其核心优势在于冻结主干网络仅需训练轻量级任务头即可实现密集预测任务SOTA。该模型在16.89亿图像上预训练，支持跨领域零微调应用，通过改进训练目标（加入iBOT掩码建模、Gramanchoring等）显著提升特征质量。提供ViT（21M-67亿参数）和ConvNeXt系列模型，支持遥感专用版本。实测显示冻结主干下，ViT-7B在ADE20K分割任务达60.7mIoU。模型输出含[CLS]token、4个寄存器token和特征图，需确保输入尺寸为16的倍数。

2025-10-10 12:39:49 573

转载 Python 可视化库 Plotly

本文介绍了Python数据可视化库Plotly的核心功能与应用。Plotly作为开源交互式可视化工具，支持折线图、柱状图、散点图等多种图表类型。文章详细讲解其安装方法、基础绘图流程（包括数据生成、图表创建与布局设置），并提供了柱状图、散点图和饼图的具体实现代码。最佳实践部分涵盖Pandas数据集成、图表保存为HTML文件以及自定义样式等技巧。Plotly的交互特性和跨平台支持使其成为数据分析和展示的高效工具。

2025-10-10 12:33:03 184

转载 CAN FD 和 CAN 的技术对比

CANFD是CAN的升级版本，通过双速率机制和长数据帧实现更高带宽和效率。CANFD在仲裁段沿用经典CAN速率（最高1Mbps），数据段可切换至更高速率（最高8Mbps），并将单帧数据长度从8字节扩展到64字节。其核心改进包括：1）BRS位控制速率切换；2）DLC扩展支持0-64字节；3）增强CRC校验。CANFD物理层兼容CAN，通过控制器/收发器的双时钟域设计实现动态速率切换。虽然面临车载以太网的竞争，CANFD凭借低成本和高兼容性，仍将在中低带宽场景长期存在，形成"CAN→CANFD→以太网

2025-10-10 12:20:37 200

转载点云数据处理技术梳理

本文总结了点云数据处理的十大关键技术及应用方向。首先介绍了点云的定义，即包含空间坐标、反射强度和颜色信息的采样点集合。随后依次阐述了点云滤波、关键点提取、特征描述、配准、分割分类、SLAM图优化、目标识别、变化检测、三维重建和数据管理等核心处理技术。其中重点介绍了ICP、NDT等经典配准算法，以及泊松重建、八叉树等重建与检测方法。文章还指出了点云处理在三维人脸识别、实时重建等领域的实际应用，为点云数据处理提供了全面的技术框架。

2025-08-18 23:37:14 441

转载 1、1.5、2.5、4、6、10平方电线可以负荷多少瓦？多少电流？

不同规格电线的负荷能力不同：1平方铜线可承受6A电流；1.5平方铜线可承受12-15A电流，负荷约3723瓦；2.5平方铜线可承受16-25A电流，220V下负荷4.4kW，380V下13kW；4平方铜线可承受42A电流，三相23kW，单相6kW；6平方铜线可负荷10kW；10平方铜线可承受70A电流，负荷约15.4kW。电线负荷能力与材质、电压和敷设环境有关。

2025-08-14 22:58:14 6976

转载 TurboReg：超高速高精度点云配准方法

武汉大学团队在ICCV2025发表论文《TurboReg》，提出革命性点云配准方法。该研究针对传统最大团搜索算法速度慢的问题，创新性地设计轻量级"TurboClique"（3-clique）和并行化PGS搜索算法。实验表明，在3DMatch等数据集上，TurboReg比现有SOTA方法快200多倍，同时将配准召回率提升至94.89%。这一突破性成果解决了点云配准中速度与精度难以兼顾的难题，为实时3D视觉应用提供了高效解决方案。

2025-08-10 22:05:19 728

转载 Diff2I2P：图像-点云配准

摘要：清华大学与上海AI实验室团队提出Diff2I2P，一种基于扩散先验的可微分图像-点云配准框架。该方法通过控制端分数蒸馏（CSD）技术从深度条件扩散模型中提取跨模态知识，优化特征对齐，并设计可变形对应调优模块（DCT）解决传统PnP求解器的不可微问题。实验表明，Diff2I2P在7-Scenes数据集上实现7%的配准召回率提升，显著优于现有方法。代码已开源。

2025-08-10 21:43:29 432

转载 SuperMapNet：基于多模态协同与三级交互的长距离高精地图矢量化构建方法

自动驾驶高精度地图构建新突破：SuperMapNet实现长距离高精度矢量化建模本文提出了一种名为SuperMapNet的创新网络架构，用于构建长距离、高精度的矢量化高精度地图。该系统通过多模态融合和层级耦合机制，显著提升了自动驾驶环境感知能力。主要创新包括：1）语义-几何耦合模块(SGC)有效融合相机图像语义信息和激光雷达点云几何信息；2）点-元素耦合模块(PEC)通过Point2Point、Element2Element和Point2Element三层交互实现精准建模。实验表明，SuperMapNet在

2025-08-10 21:30:13 334

转载快速进阶 LLM/AI 的必读系列

本文系统梳理了AI工程化关键技术，涵盖从数据预处理到模型推理的完整流程。在预处理阶段，重点介绍了Byte-pair Encoding等分词技术和BERT等向量化方法。核心架构方面，详细分析了Transformer及其变体（如FlashAttention、MoE专家系统）、RLHF强化学习框架和思维链推理技术。优化方案包括1-bit量化、推测解码等前沿方法，以及模型蒸馏和状态空间模型等轻量化技术。此外还探讨了多模态处理（图像/视频转换器）、竞赛模型优化和行业应用案例（如Meta测试改进、Netflix推荐系统

2025-08-09 19:08:03 121

转载 GLOMAP 论文阅读

【摘要】本文提出了一种新型全局式运动恢复结构（SfM）系统GLOMAP，其核心创新在于将相机定位与点位置估计联合优化，而非传统地分离平移平均与三角测量步骤。实验表明，该系统在ETH3D、LaMAR等多个数据集上，其重建精度与鲁棒性达到或超越当前最先进的增量式COLMAP系统，同时运行速度快1-2个数量级。GLOMAP尤其擅长处理未知相机内参和共线运动场景，通过归一化方向差异的误差度量，有效克服了传统平移平均的不适定性问题。该系统为大规模三维重建提供了高效可靠的解决方案，代码已开源。

2025-07-08 23:25:14 290 1

原创 VSCode 使用 ssh 远程连接阿里云

Windows使用PowerShellUbuntu和Mac使用Terminal。

2025-07-02 13:02:26 754

原创 Python 库 zipfile 破解 zip 文件解压密码

使用的核心模块是Python标准库中的zipfile模块。这个模块可以实现zip文件的各种功能，具体可以查看官方参考文档。这里的暴力破解的意思是对密码可能序列中的值一个一个进行密码尝试，这对人来说是很难的，可是对计算机而言并不难。有时候我们下载的zip文件需要密码解压而我们不知道，需要付费才知道。所有这里主要介绍两种暴力破解的密码：纯数字密码和英文数字组合密码。

2025-06-23 19:33:32 6773

转载不重视内部升迁，过分依赖空降高管的后果

这就导致，明明自己就是某个业务体系或项目中的Leader、项目经理、需求方，处于“甲方”地位、而“乙方”们（协作者、支持者，也包括老板/资历比自己深的同事、客户）做什么都应该围绕着该“甲方”提出的需求转，”，但哪怕“乙方”们实际配合的意愿度很高，由于由于信息不对称，如果“甲方”不主动提他们这个时候在某个时期上需要帮助/支持，乙方就毫不知情，没怎么处理。大家都知道人无完人，用人是要扬长避短，可有些单位的头儿，用不好内部的人，老觉得内部的人有各种不足，老希望有外部高人来公司补上，尤其看上其他公司的一些高管。

2025-06-23 03:04:20 289

转载 LiftFeat：3D几何感知的局部特征匹配新颖网络 (ICRA‘25)

LiftFeat是一种创新的轻量级网络，旨在通过融合2D和3D信息来增强极端条件下的局部特征匹配。该方法利用深度图提取的表面法线信息，结合2D描述符，通过3D几何感知特征增强模块（3D-GFL）提升特征区分能力。LiftFeat网络架构包括共享特征编码模块和多任务头，用于预测关键点、描述符和表面法线。训练过程中，使用单目深度估计模型生成表面法线标签，并通过关键点预测、表面法线估计和描述符损失进行监督。实验结果表明，LiftFeat在相对位姿估计、单应性估计和视觉定位等任务中表现出色，尤其在光照剧烈变化、低纹

2025-05-17 18:19:35 430

转载 Prompt基础三维检测器 (PF3Det)：结合基础模型与 Prompt 工程，实现 LiDAR 高效融合及三维检测最优结果

本文提出了一种名为Prompt基础三维检测器（PF3Det）的新型多模态三维目标检测方法，旨在解决自动驾驶领域中LiDAR点云与相机图像融合的挑战。PF3Det通过结合基础模型编码器和软Prompt技术，有效融合了LiDAR和相机的特征，提升了检测性能。实验结果表明，在nuScenes数据集上，PF3Det在有限训练数据的情况下，显著提高了NDS和mAP指标，展示了其在三维检测中的高效性。该方法通过引入多模态基础特征和软Prompt，成功解决了模态融合中的领域差异问题，并为数据有限情况下的三维目标检测提供了

2025-05-17 15:45:24 302

原创 Sparse4D运行笔记

Sparse4D有三个版本，其中V1和V2版本的官方文档中环境依赖写得比较模糊且依赖库有版本冲突。

2025-05-17 14:01:46 656

转载 RDD: Robust Feature Detector and Descriptor using Deformable Transformer

本文介绍了一种名为RDD的鲁棒特征检测与描述框架，该框架通过可变形Transformer技术，在三维计算机视觉任务中实现了高效的关键点检测和描述符提取。RDD采用双分支架构，分别使用全卷积网络和基于Transformer的结构来处理关键点检测和描述符提取，有效解决了传统方法在大基线相机运动、显著光照变化和尺度差异等复杂条件下的不足。通过可变形注意力机制，RDD能够选择性关注关键位置，降低计算复杂度，同时保持几何不变性和全局上下文的学习能力。实验结果表明，RDD在多个标准基准测试上均优于当前最先进的方法，并在

2025-05-16 14:44:24 439

原创 VSCode 插件 Python Image Preview 使用笔记

Python Image Preview支持numpy pillow opencv-python matplotlib seaborn plotly imageio skimage tensorflow pytorch等library的可显示为图像的变量。这里以matplotlib官方的一个热力图例程为例，来展示如何使用Python Image Preview插件在远程调试时查看绘制的实验图像。

2025-05-01 11:41:36 2046

原创 Grounding DINO

图1。(a) 封闭集物体检测需要模型检测预定义类别的对象。(b) 以前的工作将模型零样本传输到新类别以实现模型泛化。我们建议将指称表达式理解(REC)作为对具有属性的新对象的模型泛化的另一种评估。(c) 我们通过组合Grounding DINO和Stable Diffusion[42]呈现图像编辑应用程序。以彩色查看效果最佳。本文提出了一种开放集物体检测器,称为基于定位的DINO,通过将基于Transformer的检测器DINO与定位预训练相结合,可以检测任意物体,如人工输入的类别名称或指称表达等。

2025-04-30 23:05:54 1613

转载车道拓扑推理演进：从程序化建模到车载传感器

车道拓扑推理技术在高精（HD）建图和自动驾驶应用中发挥着至关重要的作用。虽然近年来在该领域中取得了重大进展，但是很少有文献综合概述这些工作。本项调研系统性地回顾了车道拓扑推理方法的演变和现状，将其分为三种主要范式：基于程序化建模的方法、基于航拍图像的方法和基于车载传感器的方法。本文分析了从早期基于规则的方法到现代基于学习的解决方案的进展，这些基于学习的解决方案利用了transformers、图神经网络（GNNs）和其它深度学习架构。

2025-04-29 18:04:36 240

转载 LiDPM：重新思考点云补全的Point Diffusion

LiDPM在IoU 0.2m（44.4 vs. 40.7）、IoU 0.1m（27.6 vs. 24.8）等指标上优于LiDiff，且生成点云的结构更清晰（图4）。将物体级扩散模型（如PVD）与场景级模型统一，证明标准DDPM框架只需适当调整初始条件（如从中间噪声步骤开始扩散），即可扩展到大规模场景，无需定制化设计。：从中间时间步（如300步）开始扩散，初始点云由稀疏点云的复制倍叠加噪声生成，平衡了结构保真度与生成能力。：通过调整初始形状（如直线、转弯），LiDPM可生成多样化的合成场景（图5）。

2025-04-29 16:50:59 792

GitKraken.zip

空空如也