- 博客(6283)
- 资源 (35)
- 收藏
- 关注
转载 真实世界3D分割新范式!MVGGT:融合视觉、几何与语言,性能大幅超越传统方法
过去,这项任务的研究大多建立在一个理想化的假设上:我们拥有激光雷达等设备扫描出的高质量、稠密的3D点云数据。它们获取的视图是稀疏的、不完整的,由此重建的3D场景往往充满噪声和空洞。尽管目前代码暂未公开,但MVGGT展示出的卓越性能和对真实世界场景的强大适应性,无疑为具身智能、AR/VR等领域的发展铺平了新的道路。它的任务是从多视图图像中推断出相机位姿和深度图,并生成一个初步的3D点云场景。这相当于为模型提供了一个稳定的“几何脚手架”,避免了在稀疏数据上从零开始学习3D几何的困难,保证了场景结构的一致性。
2026-01-17 00:02:00
7
转载 为什么工业缺陷检测更适合“弱监督”,而不是全监督?
全监督模型会:强行学习这些不一致,把“标注员风格”当成特征,结果就是——泛化崩溃。在实际检测中:判定缺陷“存不存在”,往往比“边界在哪”更重要。弱监督常见做法:只用良品训练,学习正常分布,把“偏离”当异常。很多缺陷类型只是工艺原因不同,在视觉上高度相似,强行分类只会导致:类内差异大,类间差异小。弱监督的优势在于:不需要为新缺陷重新建类,只要“不像正常”,就能报警。全监督的前提假设,其实非常苛刻,全监督缺陷检测隐含了几个前提:缺陷类别是。只用良品训练,输出异常热力图,找“哪里不对劲”,此时不关心缺陷类型。
2026-01-16 07:04:00
8
转载 3.47M参数 + 41FPS!港大重磅开源高效精准的驾驶世界生成模型GenieDrive
香港大学一年级博士生,师从赵恒爽教授。本科毕业于华中科技大学。研究方向为世界模型、自动驾驶与具身智能。港大重磅分享:符合物理规律的自驾世界模型GenieDrive。:3D视觉工坊很荣幸邀请到了香港大学一年级博士生。3D视觉工坊很荣幸邀请到了香港大学一年级博士生。,为大家着重分享相关领域的核心内容。提出符合物理的自驾世界模型GenieDrive。,为大家着重分享相关领域的核心内容。GenieDrive的效果演示。世界模型在自动驾驶领域的作用。3D视觉工坊哔哩哔哩。香港大学一年级博士生。分析现有自驾世界模型。
2026-01-16 07:04:00
10
转载 单步相位封神,仅需8.3%投影时间!深度学习+HDR结构光三维重建,实现亚50微米级测量精度!
HDR条纹生成模块通过长短曝光的低动态范围条纹图输入,利用注意力权重引导网络聚焦于高反射物体的低曝光条纹和低反射物体的高曝光条纹特征,同时通过特征层的权重蒸馏约束特征边界,从而合成具有相位特征的HDR条纹,显著减少所需曝光次数。然而,条纹轮廓测量的前提是获取精准的调制图案,这一过程中,受到相机成像动态范围的限制,尤其是对于具有不同表面反射率的物体,重建效果往往不理想,极大地限制了其在复杂场景中的应用,特别是在工业零部件的测量中,传统的多次曝光图案合成方法效率低,难以满足快速和高精度的需求。
2026-01-15 07:02:46
19
转载 为什么目前落地的主流SLAM技术很少用神经网络进行特征提取
假如我选dso,或者最新继承者dm-vio,或者时髦的3DGS-SLAM,如果是因为它定位效果好我选它自然ok,但是如果是为了它炫酷的稠密点云选它,此时就需要仔细琢磨一下我的需求到底是定位还是建图,因为我大可以在特征点法vslam的基础上加一个深度滤波的建图线程。因此算力成本是一个非常重要的因素。如果让我选,我更可能选滤波的方案,它对算力要求比优化更少,现有开源方案工程化程度高,需要的修改少,也比较成熟,采用静止初始化,有些地方没看懂也不影响使用,这就是原型方案能力强可以弥补人员能力弱和硬件能力弱的缺点。
2026-01-15 07:02:46
13
转载 港大重磅开源DrivePI:基于4DMLLM的统一理解,感知,预测和规划自驾模型
此前,他的研究聚焦于自动驾驶三维感知领域,涵盖三维目标检测与跟踪、多模态表征学习以及端到端自动驾驶系统。目前,他的研究方向主要包括:1.统一多模态表征学习:通过跨模态、跨域数据集的统一表征学习,构建大规模三维感知模型;3.具身智能:推进具身人工智能系统研究,包括具身基础模型与高效的视觉-语言-动作(VLA)框架。港大和引望重磅分享DrivePI:基于4DMLLM的统一理解,感知,预测和规划自驾模型。:3D视觉工坊很荣幸邀请到了香港大学计算与数据科学学院博士后研究员。,为大家着重分享相关领域的核心内容。
2026-01-15 07:02:46
14
转载 小鹏放弃初代VLA的背后:一场「第一性原理」的终极豪赌
年初,何小鹏在测试新一版的系统后,发现端到端小模型的确比之前的泛化性强了一些,但好像永远无法做到真正的自动驾驶:“因为它就像一个跷跷板——效率提高了,体验下降了;新一代的VLA,可以说是「简单粗暴」地遵从了「第一性原理」——省去从Vison到Language的转译部分,以及云端繁重的复杂计算,告别数据标注和信息损失,极大提高推理速度。更值得一提的是,当车辆在施工工地面对穿反光背心的道路指挥施工人员时,完全理解了对方的手势——车辆先停了一下,然后又跟随手势通行。例如对错误出口的提示,最佳车道的选择等等。
2026-01-15 07:02:46
11
转载 99%检出率 + 小时级上线!视比特翔云平台:让工业AI运维告别人工,落地即高效
三大核心模块的无缝联动,让内置的Agent化身“全流程运维管家”,自主完成任务调度、模型调优、异常修复与数据流转,覆盖从 AI 模型开发、协同管理到现场执行的全部环节。面对部署流程繁琐、硬件投入超支、适配周期漫长的智能化升级困境,翔云平台从设计之初就坚持“开箱即用、落地无忧” 的理念,以Agentic AIOps 智能中枢为核心,平台适配不同生态硬件、Agent自主对流程调度与异常兜底,将部署门槛降到最低,让智能化升级变得触手可及。它的存在,确保了AI大脑的指令能够精准、实时、稳定地传达至生产末梢。
2026-01-14 07:03:24
18
转载 一个模型统一4D世界生成与重建,港科大One4D框架来了
为了使用同一个视频模型统一 4D 的生成和重建,One4D 基于Wan Video的多任务框架,提出了 Unified Masked Conditioning(UMC),把不同类型的条件如单帧、稀疏帧、全视频,统一打包成一个条件视频,缺失帧用 0 填充,并使用一个 mask 张量指定哪些帧需要生成。这套数据策略带来的直接收益是,合成数据提供几何精度与稳定性,真实数据提供视觉多样性与真实分布,从而让 One4D 在保持视频质感的同时,也能输出可用、对齐、时序一致的 4D 几何结果。确保两个模态能够相对独立。
2026-01-14 07:03:24
16
转载 97.5%成功率!LGGD 完美执行机械臂抓取任务,无惧杂乱物体
在OCID-VLG和Grasp-Anything++数据集上的实验表明,LGGD超越了现有的语言引导抓取方法,对未见物体和多样的语言查询表现出很强的泛化能力。通过两个细化分支分别对分割掩码和抓取参数进行细化,每个分支遵循对称的编码器-解码器结构,在对数上进行操作,确保梯度在粗预测和细化预测路径上流动,提高精度和语义连贯性。:采用深度监督对粗预测和细化输出进行联合优化,整体训练目标由细化损失和粗预测损失组成,通过系数控制粗监督的贡献,鼓励网络在早期阶段产生语义一致的预测,细化模块专注于校正残差误差。
2026-01-14 07:03:24
14
转载 终于不用为ROS 2的bag文件导出发愁了:这个工具一口气解决所有痛点
它的核心思路是:你有一个装满数据的bag文件,它能帮你把里面的任何话题数据,转换成你能直接用的格式,比如CSV表格、JSON文件、PCD点云、PNG图片、MP4视频等等。的GUI用Qt写的,启动后直接加载bag文件,左边是话题树,右边是导出配置,点几下就能搞定。很多ROS开发者是命令行原住民,但当你面对一个几十GB的bag文件,里面嵌套着十几个话题,想快速预览并选择要导出的内容时,命令行就显得笨拙了。更关键的是插件系统。:用GUI加载bag,看看有哪些话题,预览数据,尝试不同导出格式,保存配置文件。
2026-01-13 07:01:36
30
转载 【四旋翼】四旋翼无人机离散建模与增量PID控制:从线性化到轨迹跟踪
为了在保证系统可控、可分析的前提下进行控制器设计,通常需要在悬停工作点附近对无人机动力学进行小扰动线性化建模,再将连续线性模型离散化,最终在离散时间域实现控制律设计。在该模型之上,设计了包含位置外环与姿态内环的增量式 PID 控制结构,实现了悬停与圆轨迹跟踪两类典型任务的仿真验证。本文首先基于经典六自由度刚体动力学建立四旋翼无人机的连续非线性模型,并在悬停平衡点进行小角度线性化,得到包含 12 个状态与 4 个输入的连续线性化模型。以上为非线性模型,难以直接用于线性控制设计,因此需在悬停条件下线性化。
2026-01-12 07:02:13
21
转载 激光雷达如何去除动态点云?
基于感知的,通常是基于网络的检测/分割+聚类+运动估计,优点是基建成熟,缺点是需要GPU/NPU,在移动平台上受限,只能针对特定种类物体(车辆+行人),对小物体准确率有限;在点云层面可以拒绝掉大多数运动物体,生成的栅格地图也更加干净,速度较快(百ms量级,关键帧层面可以做到实时,而。激光点云的稀疏性导致物体表面每次打到不同的点,典型的是地面点经常被误删(因为地面通常是许多个圆圈)、细小的静态物体会删除(树叶、树枝等)的概率栅格刷新,由于需要计算射线,3D场景相对费时(不够实时),2D可以。
2026-01-12 07:02:13
29
转载 快速渲染+精准几何重建!SDFoam如何突破NeRF和SDF重建的固有局限?
在各种不同的场景中,我们提出的这种混合隐式-显式建模方法——即SDFoam技术——在保持高效性的同时,显著提高了网格重建的精度(以切角误差作为评估指标),并且其渲染效果也与传统方法相当。具体而言,基于辐射度的方法将场景表示为针对外观进行优化的体积密度场,而基于有符号距离函数(Signed Distance Function,SDF)的方法则采用有符号距离函数来恢复具有更高几何精度的隐式曲面。与依赖事后曲面重建算法的方法不同,我们的方法通过利用有符号距离函数,直接从训练好的沃罗诺伊结构中提取曲面。
2026-01-12 07:02:13
17
转载 Hier-SLAM:LLM 赋能的分层语义 3D 高斯泼溅,突破大规模语义 SLAM 的效率瓶颈
例如,底层是具体的对象(Stool, Sofa),上一层归类为家具(Furniture),再上一层归类为物体(Object),顶层则是场景(Scene)。:展示了从粗粒度到细粒度的语义渲染效果。Hier-SLAM 的出现,为机器人在复杂、开放的真实世界中进行长时间、大规模的语义导航提供了一种切实可行的技术路径,展示了“结构化先验 + 高斯泼溅”的巨大潜力。:设计了层级内(Inter-level)和跨层级(Cross-level)的双重优化策略,实现对场景从“物体”到“具体家具”再到“椅子”的渐进式理解。
2026-01-10 00:02:57
56
原创 一文详解三种结构光方案:散斑结构光 / 多频结构光 / 相移 + 格雷码
由于相机与投影器的视角差异,图案会因物体表面几何形状而产生畸变,通过分析这种畸变可以反推物体的三维形貌。数值为典型工业或消费级实现的经验范围,具体性能取决于投影器亮度/分辨率、相机噪声、标定质量、表面反射率与环境光等因素。散斑结构光通过投射具有高度伪随机性的激光散斑图案,利用散斑图案的空间唯一性特征,对三维空间进行直接标记。相机采集单帧图像后,通过与标定参考图案的相关匹配或深度学习方法反演获得视差,再通过三角测量计算深度。提供最高的测量精度,格雷码的单位距离特性保证了可靠的级次编码。
2026-01-10 00:02:57
627
转载 突发反转,外卖程序员爆料算法陷阱,已被证伪!
庆幸的是 Casey 凭借着多年的记者经验并没有鲁莽行事,而是希望能够更好地理解这份文档,于是他问举报人能否介绍一些他现在或者以前的同事帮帮忙。最后还有那份看上去很唬人的“内部文档”,大部分内容都在描述帖子中提到的“绝望评分”背后的 AI 系统技术架构。谁又会费尽心思伪造证件?在 Casey 的报道中,他感慨真相总是远远慢于谎言的传播,而有了 AI 工具,造谣者就能让谎言传播得更快。加上 Signal 之后,举报人反复强调需要保持匿名,Casey 表示理解,但仍然需要核实他的身份。
2026-01-09 07:05:12
46
转载 一文详解如何在无人机上部署FAST-LIO算法
在板载计算机中运行激光雷达SLAM算法(课程配套FAST-LIO算法),实现位姿估计,并且将结果发送到飞控,飞控中运行EKF算法融合外部定位。在板载计算机中运行Ego-Planner规划算法,得到雷达坐标系下规划的路径指令,包括三维位置、速度、加速度、偏航角、以及偏航角速度,以ROS节点发布;在板载计算机中运行规划算法(课程配套EGO-Planner),实现在有障碍环境中的实时路径规划,并且将规划指令发送到无人机,控制无人机运动。仅供参考,随着版本更新,最后的发货版本可能会略有差异,请在购买前与客服确认。
2026-01-09 07:05:12
32
转载 霸气碾压纯传感器方案!空间检索如何重塑自驾决策与世界模型
复旦大学可信具身智能研究院助理教授,本博毕业于上海交通大学,研究方向自动驾驶、具身智能、世界模型。在TPAMI、CVPR、NeurIPS等会议期刊发表论文二十余篇,谷歌学术引用3000余次,在端到端驾驶领域做出系列开创性工作,最新包括Bench2Drive、DriveTransformer、DriveVGGT等。,为大家着重分享相关领域的核心内容。:3D视觉工坊很荣幸邀请到了复旦大学可信具身智能研究院助理教授。如果您有相关工作需要分享,3D视觉工坊很荣幸邀请到了复旦大学可信具身智能研究院助理教授。
2026-01-09 07:05:12
25
转载 无限重建!上交开源InfiniteVGGT:打破长序列3D视觉几何估计显存瓶颈
因此,真正的解决方案应当是构建一个动态维持的记忆机制——在严格受限的显存预算下,像生物记忆一样实时“新陈代谢”,不断以高价值的新特征置换旧的冗余,确保有限的显存始终承载着最关键的几何线索。第一帧定义了世界坐标系的原点和尺度。在传统的 Transformer 设计中,KV Cache 预算通常被均匀地分配给每一层,这样就会造成“深层显存过剩(保存较多重复的语义Token),浅层显存不足(丢失了关键的几何细节)”的资源错配。我们发现,视频流中相邻帧的视角变化极小,导致以Token形式存储的记忆存在大量冗余。
2026-01-09 07:05:12
31
转载 实时检测新王者:YOLO-Master 融合MOE与专属Transformer,性能全面碾压YOLO11、v12、v13
这就实现了所谓的“稀疏激活”,虽然模型总参数量因为多个专家的存在而增加了,但单次前向传播的实际计算量(FLOPs)却得到了有效控制,甚至可能更低。论文中,为了在保持实时性的同时获取多尺度感受野,每个专家实际上是由不同卷积核大小(如 3, 5, 7...)的深度可分离卷积(DWConv) 构成的轻量化模块,而非计算量较大的 Transformer 块。思想,让模型学会了“看菜下碟”:遇到简单的场景就少用点力,遇到复杂的场景就派更多的“专家”上场,实现了计算资源的动态分配。:这是ES-MoE的“大脑”。
2026-01-08 07:01:51
37
转载 VLNVerse:首个全栈式、物理仿真、全任务统一的具身智能导航基准
传统的模拟器(如 Matterport3D)是基于离散图(Graph)的。:机器人不仅要会走路,还得懂语义(Semantic Understanding),知道“厨房”通常长什么样,“微波炉”可能在哪里,需要具备常识推理能力。:基于 Isaac Sim,提供物理感知的控制、模块化传感器(RGB, Depth, LiDAR)和参数化的机器人身体(不再是悬浮的相机)。:R2R、REVERIE、HANNA 等任务各自为战,缺乏一个统一的框架来同时评估细粒度导航、目标导向导航、对话导航等多种能力。
2026-01-08 07:01:51
43
转载 卡尔曼滤波器的通俗解释
如果测量无法覆盖状态中的所有特征,例如,状态空间包含 3 个元素 [x, y, z],则我们的传感器只能测量 x 和 y。卡尔曼滤波器是一个算法,用于预测物体随时间变化的“状态”(如位置、速度等),即使在传感器数据充满噪声和不确定性的情况下。(有误差的测量),在脑海里绘制出最可能的航线。这表示在真实状态为 x 的情况下观察到测量值 z 的概率。:状态转移矩阵(状态如何演变,例如,对于匀速运动模型和一个时间步长,F 如下所示:)。(测量):你摸到墙上的一个标志,感觉在12米处,但手感可能不准(也有误差)
2026-01-08 07:01:51
31
转载 NeurIPS 2025开源|港中文新作RankSEG:无需重训模型,仅需三行代码即可显著提升语义分割精度
例如,在下面这个由两个像素组成的简化场景中,即便其中一个像素的预测概率低于 0.5,为了获得最优的 Dice 分数,依然应该将其判定为前景。针对以上难点,我们将在下文中引入近似化的技巧,旨在进一步简化计算,同时提出更为实用(practical)的算法方案,以促进 RankSEG 在各类实际分割任务中的高效应用。:所有结果均基于同一个训练模型,RankSEG 作为模型输出的“后处理”操作,避免了因神经网络训练过程中的随机性导致的性能波动,保证了对比结果的客观性。借助该方法,我们用定理2中的。
2026-01-07 07:01:54
42
转载 CVPR 2025满分论文! OverLoCK: 一种仿生的卷积神经网络视觉基础模型
值得注意的是,所提出的ContMix是一种即插即用的模块。例如,30M的参数量规模的OverLoCK-Tiny模型在ImageNet-1K达到了84.2%的Top-1准确率,相比于先前ConvNet,Transformer,以及Mamba模型具有明显的优势。具体来说,Top-down Guidance会同时参与计算Gate和动态卷积权重的生成,还会整合到feature map中,从而全方位的将high-level语义信息注入到Focus-Net中,获得更为鲁棒的特征表示能力。
2026-01-07 07:01:54
30
转载 激光雷达点云能分清地面和水面吗?
此外,像被雨水打湿的路面、积水坑洼或泥泞表面等,也会改变激光的反射行为,使点云表现出类似不规则噪声的形态。当然,这种方法并不完美,因为在实际驾驶场景中,积水、湿滑地面、浅水或泥泞路面也会导致点云稀疏或噪声增多。所谓地面分割,就是把代表路面、裸地、草地等的点,从点云中挑出来,把非地面点(比如车辆、行人、树木等)单独留出来,这样。除地面之外,还能分类出建筑物、植被、线路、水体等,这在专业点云处理领域是标准做法。在自动驾驶的感知链路里,点云数据要经过噪声过滤、坐标转换、地面点分割等预处理,这些步骤。
2026-01-07 07:01:54
28
转载 有图和无图自动驾驶的历史渊源与未来
当时推出的面向乘用车的激光雷达),这种高密度点云的激光雷达已经不再适用于传统的SLAM方案,而更像图像的处理方式。Waymo沿用了是机器人学科一贯熟悉的SLAM技术,SLAM的全称是实时建图与定位,需要实现构建一个表征空间特征的地图,然后用当前观测到的环境信息和先前的地图做匹配,计算出当前的位置,然后进行运动规划。那么FSD出现后的这种新颖的方式出现后,人们为了区别这种新的方法和以Waymo为代表的旧的方法,简称以SLAM高精地图的方法为“有图自动驾驶”,称FSD的自动驾驶方法为“无图自动驾驶”。
2026-01-06 07:02:33
32
转载 配准一切点云!波恩大学&斯坦福重磅开源RAP:无需显式匹配,配准任意3D点云数据!
在本文中,我们将点云配准视为一种条件生成过程:通过学习得到的连续的、逐点分布的速度场,可以将含有噪声的点云数据转化为配准后的场景数据,从而确定每个视图的正确姿态。点云配准是三维视觉、机器人技术和摄影测量领域的基石,具有广泛的应用,包括将多个部分三维扫描数据合并为一个一致的三维模型,以及在现有三维地图中定位传感器以用于后续任务,如同时定位与建图(Simultaneous Localization and Mapping, SLAM)、三维重建和机器人操作。从无位姿的点云开始,我们采样具有对应局部特征的点。
2026-01-06 07:02:33
48
转载 智元机器人 | 四足机器人二次开发从入门到落地
智元研究室」是一个计划长期制作的直播栏目,旨在向科研 /机器人迷等用户提供机器人相关的硬核内容,如技术干货、应用场景、前沿视野等内容,我们将定期邀约业内知名专家做客智元机器人直播间和大家分享专业内容。在前三期,赵老师带大家初识了智元D1以及开发环境,从第3期开始进入了实战环节,介绍了智元D1驱动开发,内容包含驱动架构、运动控制与安全机制》全程 “代码 + 实操”,讲完就能写、写完就能运行,现在扫码进群还能领前 3 讲回放 + 课件,直接跟练。
2026-01-05 07:02:04
40
转载 机器人抓取成功率翻倍!DKT模型利用扩散先验,破解透明物体3D感知难题,代码已开源
传统的深度相机,无论是基于双目立体匹配还是飞行时间(ToF)原理,在遇到这些高透明、高反光的物体时,往往会“失明”,输出充满空洞或严重错误的结果。的新方法,不再让模型从零学习,而是巧妙地“挪用”视频生成大模型已有的知识,将其改造为一个顶级的透明物体深度估计器。上,DKT的性能远超之前的方法。DKT的成功不仅仅是深度估计算法的一次突破,它更揭示了一种新的范式:强大的生成式AI模型内部蕴含着对世界运行规律的深刻理解,我们可以通过巧妙的设计,将这些“隐性知识”挖掘并“挪用”到各种复杂的感知任务中。
2026-01-05 07:02:04
52
转载 田渊栋的2025年终总结:关于被裁和26年的研究方向
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:机器之心「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!去年 10 月,Meta 人工智能部门的裁员波及到了一大波人,其中包括了知名华人科学家田渊栋及其团队成员。就在这两天,田渊栋分享了自己的 2025 年终总结。他首先透露了自己「救火」Llama 4 项目的经历以及之后被
2026-01-05 07:02:04
151
转载 三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
RFT 阶段不仅关注最终轨迹结果的奖励,还创新性地设计度量敏感过程奖励,这些奖励函数能够显式监督轨迹生成中涉及的关键中间感知步骤(如 3D 指代、3D 度量和尺度预测)的质量。下面展示一些 RoboTracer 与其它模型输出结果的可视化样例,不难发现目前的 VLM 都理解空间关系并且生成 2D 轨迹,但是由于绝对深度预测不精确导致生成的空间轨迹往往浮空或者碰撞,而 RoboTracer 可以较为精确地预测,而且更多的几何输入预测结果更精确。更厉害的是,它还可以基于 3D 空间指代和 3D 空间度量进行,
2026-01-04 07:01:43
27
转载 远超MAST3R-SLAM!FoundationSLAM:释放深度基础模型,打造端到端稠密视觉SLAM新SOTA!
大量实验结果表明,FoundationSLAM在多个具有挑战性的数据集上均展现了出色的轨迹精度和密集重建效果,而且其运行速度可达18帧每秒,这说明我们的方法具有很强的泛化能力,能够适用于各种实际场景,具备较高的实用价值。我们的方法利用基础深度模型中编码的强先验,在具有挑战性的条件下引导光流匹配,并引入了一种新颖的双一致束调整层(Bi-Consistent Bundle Adjustment Layer),该层联合优化深度和位姿,同时强制执行多视图一致性。我们的方法(橙色星号)在所有指标上都取得了最优表现。
2026-01-04 07:01:43
58
转载 一文梳理相机与激光雷达外参标定系统教程!
此时要使用E(左)、D(右)、S(上)、W(下)、Q(顺时针)、A(逆时针)进行调整,使点云与原物大致贴合,调整之后如图11所示。上述的${data}录制bag包路径,运行完毕,会在相应的文件夹下产生一个pdf文件件,里面有标定的结果和重投影误差(reprojection errors)!手持扫描仪HandBot-S1默认使用的是右目,在技术的指导下进行相关修改,使其可以录制符合要求的bag包,从而进行标定。完成了单目相机内参的标定,近期由于学习开发和发论文的需要,需要进行标定双目相机的内外参。
2026-01-04 07:01:43
55
转载 TPAMI 2025 | 纯视觉逼近激光雷达,Hi-SOP 刷新 3D 占据预测 SOTA
其目标是从有限的 2D 图像中重建出完整的 3D 体素网格,每个体素既包含几何(是否占据),也包含语义(属于哪一类物体)。:在将 2D 特征“提升”为 3D 体素时,通常直接使用单目深度估计结果,忽略了其在遮挡、反光等区域的高度不确定性,导致几何模糊。若模型在 t 帧的预测中仍“看到” t-1 帧的车,就会产生鬼影或误检。:简单地堆叠多帧特征(如 VoxFormer-T),假设不同视角下同一空间位置的语义一致,但。通过分而治之(disentangle)、逐层对齐(align)、再统一融合(compose)
2026-01-03 00:02:57
46
原创 三位3D视觉从业者的2025年终总结!
答案或许因人而异,而我的答案是:持续学习的能力、解决问题的实力,以及洞察本质的眼光。在那里的一些时光,也曾参与了一些较有挑战的项目,也学到了很多,从琢磨算法方案、跟外部团队对接,到反复调试、推动落地,经历了一个还算比较完整的循环。Beyond coding,在软实力方面同样不可忽视,项目中的对接交流、留痕、汇报、纪要等环节,同样是保证项目顺利推进的关键,也是自身KPI的保障。2025年的最后一天了,总觉得该写点什么,给过去的一年画个简单的句号,也愿新的一年2026,愿新年胜旧年。求道之人,不问寒暑。
2026-01-02 00:01:05
331
转载 传统SLAM真的凉了?从SLAM到3DGS,3D视觉人该补哪些硬技能?
细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息、承接项目。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。目前已有6400+活跃成员,主要涉及方向:工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、大模型等科技前沿方向。
2026-01-01 00:13:07
34
转载 鱼眼不是畸变,而是几何 | EquivFisheye:球面等变统一建模,让环视鱼眼真正「可用」的全景3D感知框架
通过球面建模与 SO(3) 等变表示学习,我们在精度、稳定性与计算效率之间取得平衡,为鱼眼全景 3D 感知提供了一条可解释、可落地的技术路径。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘。在极视角、跨相机重叠与近场复杂区域,EquivFisheye 的预测结果更加连贯、稳定,几何结构更完整。视角变化对应旋转群 SO(3) 的群作用。
2026-01-01 00:13:07
30
转载 从FAST-LIO到Ego-Planner:如何搭建可二次开发的无人机算法验证平台?
在板载计算机中运行激光雷达SLAM算法(课程配套FAST-LIO算法),实现位姿估计,并且将结果发送到飞控,飞控中运行EKF算法融合外部定位。在板载计算机中运行Ego-Planner规划算法,得到雷达坐标系下规划的路径指令,包括三维位置、速度、加速度、偏航角、以及偏航角速度,以ROS节点发布;在板载计算机中运行规划算法(课程配套EGO-Planner),实现在有障碍环境中的实时路径规划,并且将规划指令发送到无人机,控制无人机运动。仅供参考,随着版本更新,最后的发货版本可能会略有差异,请在购买前与客服确认。
2025-12-31 07:02:56
37
转载 多目标联合优化:内参、外参、畸变一起算,还是分步算?
文章指出,内参、外参和畸变参数在数学上高度耦合,存在“等价解释”,导致联合优化容易陷入局部最优,产生误差小但物理意义差的解。在做相机标定时,你一定听过两种截然不同的工程建议,一次性全算派:内参、外参、畸变一起丢进 LM,统一最小化重投影误差,最优!在做相机标定时,你一定听过两种截然不同的工程建议,一次性全算派:内参、外参、畸变一起丢进 LM,统一最小化重投影误差,最优!cx、cy 是几何中心,还是畸变中心?一旦初值不好:内参开始吸收外参误差,畸变开始“虚假拟合”,你会得到一个误差很小,但物理意义很差的解。
2025-12-31 07:02:56
32
socket通信技术
2018-01-23
GBK.h QT中显示中文
2018-01-18
socket通信界面程序
2018-01-24
粒子滤波在图像领域的跟踪
2018-04-25
PCL1.8.0+VS2013+Win10 x64的配置教程
2018-05-08
如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序
2022-07-18
ubuntu下基于Clion+QT编写的界面demo,适合入门
2022-07-11
linux下TCP通讯助手
2022-06-30
本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。
2022-06-22
Windows下TCP通讯实战demo及TCP助手
2022-06-03
Linux下的TCP通讯实战demo以及通讯助手下载
2022-06-03
UKF(无迹卡尔曼滤波)
2020-12-03
particle_filter_demo.zip
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅