- 博客(6563)
- 资源 (35)
- 收藏
- 关注
转载 从点云到语义网格:三维重建下半场,可编辑地图已成主战场
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。,作为补充拓展内容,聚焦行业新技术、热点方向,供大家延伸参考。
2026-05-10 00:01:44
6
转载 精度不再至上!SLAM 终极形态:可编辑 + 实时 + 强鲁棒
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。
2026-05-09 07:02:37
9
转载 SIGGRAPH‘26 | 英伟达新作ArtiFixer:革新3D重建,自回归扩散让PSNR暴涨3 dB!
我们不将重建和生成视为独立的替代方案,而是旨在结合它们互补的优势:生成模型作为强大的先验来修复和完善不完美的重建,而显式(尽管带有噪声且不完整)的3D表示提供了强大的条件信号,为生成提供基础,减轻长期漂移,并抑制幻觉。那些通过连接或交叉注意力在退化渲染上条件化生成的方法存在改变观察到的场景内容的风险,而那些被训练为直接将退化渲染映射到干净图像的方法则无法合成缺失的内容,因为在完全未观察的区域(所有输入像素均为黑色)会出现模式坍塌。而我们的方法即便在初始渲染效果很差的情况下,也能重建出既合理又连贯的图像。
2026-05-08 07:02:27
6
转载 SIGGRAPH‘26 | 英伟达新作ArtiFixer:革新3D重建,自回归扩散让PSNR暴涨3 dB!
我们不将重建和生成视为独立的替代方案,而是旨在结合它们互补的优势:生成模型作为强大的先验来修复和完善不完美的重建,而显式(尽管带有噪声且不完整)的3D表示提供了强大的条件信号,为生成提供基础,减轻长期漂移,并抑制幻觉。那些通过连接或交叉注意力在退化渲染上条件化生成的方法存在改变观察到的场景内容的风险,而那些被训练为直接将退化渲染映射到干净图像的方法则无法合成缺失的内容,因为在完全未观察的区域(所有输入像素均为黑色)会出现模式坍塌。而我们的方法即便在初始渲染效果很差的情况下,也能重建出既合理又连贯的图像。
2026-05-08 07:02:27
4
转载 五一特惠最后一天!所有课程8折!加入星球可立享10门课程免费学习!
3D视觉工坊五一专属课程福利重磅来袭!为回馈新老学员一路支持,本次活动特推出重磅折扣福利,所有课程统一享8折特惠,其中10余门课程加入知识星球可一次性全部购买学习(3D视觉工坊所涉及课程的包括但不限于:工业3D视觉、自动驾驶、SLAM、具身智能、扩散模型、无人机、大模型和3D视觉基础等。上图中的:ROS2、相机标定、线结构光、3D缺陷检测、激光-视觉-IMU-GPS融合SLAM、、模型部署、3D目标检测、深度估计、多传感器融合这。▲长按扫码添加小助理,咨询更多。,除单独购买享8折外,也。
2026-05-07 07:02:23
11
转载 ICLR‘26开源 | 1000+FPS!Mobile-GS:3D高斯泼溅轻量化新范式,首次在移动设备部署!
此外,为了方便在内存受限的移动平台上部署,我们引入了一阶球谐波精馏、神经矢量量化技术和基于贡献的修剪策略,以减少高斯原语的数量并通过神经网络压缩三维高斯表示。我们的移动-GS集成了深度感知的顺序无关渲染、压缩和蒸馏技术,与原始3DGS相比提供可比较的渲染质量,同时将存储需求大幅降低到 4.8MB 并实现 1098FPS 在无界场景中,从而能够在移动设备上高效部署。在推理阶段,与3DGS不同的是,我们提出的方法消除了基于瓦片的渲染和通常需要精确alpha混合的3D高斯排序过程。我们发现排序是主要的性能瓶颈。
2026-05-07 07:02:23
6
原创 CVPR‘26 Highlight | ParticleGS:首个物理驱动4DGS预测新范式,通向4D世界模型!
这种“轨迹拟合”式的方法虽然在观测时间内表现优异,却因缺乏对底层物理规律的理解,在预测未来(运动外推)时极易出现物理上不合理的崩坏。研究团队从物质点法(MPM)中汲取灵感,将N个高斯粒子的物理状态巧妙地解耦为两部分:每个粒子的时间不变的“静态属性”(如质量、材质)以及全局粒子共享的F个“系统级动态场”(如引力场、风场)。该框架实现了在无需人工设定繁琐的先验假设或几何网格的情况下,直接从RGB视频中学习3D高斯粒子的神经动力学,实现了极其稳定、符合物理直觉的未来运动外推。关键在于对“时间”的理解。
2026-05-06 07:03:27
288
原创 CVPR‘26 Highlight | ParticleGS:首个物理驱动4DGS预测新范式,通向4D世界模型!
这种“轨迹拟合”式的方法虽然在观测时间内表现优异,却因缺乏对底层物理规律的理解,在预测未来(运动外推)时极易出现物理上不合理的崩坏。研究团队从物质点法(MPM)中汲取灵感,将N个高斯粒子的物理状态巧妙地解耦为两部分:每个粒子的时间不变的“静态属性”(如质量、材质)以及全局粒子共享的F个“系统级动态场”(如引力场、风场)。该框架实现了在无需人工设定繁琐的先验假设或几何网格的情况下,直接从RGB视频中学习3D高斯粒子的神经动力学,实现了极其稳定、符合物理直觉的未来运动外推。关键在于对“时间”的理解。
2026-05-06 07:03:27
313
转载 语义SLAM全面崛起,纯几何方案为何加速掉队?
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。
2026-05-05 00:01:32
34
转载 三位一体融合:SLAM+3D重建+世界模型,重构空间智能下一代底座
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。
2026-05-04 00:01:11
37
转载 SLAM+3D重建+世界模型,重构空间智能下一代底座!
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。
2026-05-04 00:01:11
24
转载 3DGS之后,谁在重构SLAM的技术底盘?顶会已给出答案
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。3D视觉包含立体视觉、结构光和TOF,以立体视觉为主。
2026-05-03 00:01:21
52
转载 4D动态重建正面交锋,流式建图凭什么完成破局?
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。凭它更懂真实世界的需求,更贴合商业化落地的逻辑,更早一步走进大众生活。
2026-05-01 00:01:28
43
原创 CVPR‘26 Highlight 开源 | 清华SimRecon:高保真组合式场景重建,打通「感知-生成-模拟」全流程
具体来说,在“感知”到“生成”的转换过程中,为确保视觉效果的真实性,我们采用了“主动视角优化”技术,该技术能在三维空间中寻找最佳的投影图像,作为生成单个物体的依据。此外,我们的框架利用合成的场景图来指导基于物理的资产组装,确保最终配置的物理合理性,不会出现悬浮或穿透的情况。具体来说,为了弥合从感知到生成的鸿沟,这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件,我们引入了主动视点优化,它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。我们的方法SimRecon的整体框架。
2026-04-30 08:59:26
398
原创 CVPR‘26 Highlight 开源 | 清华SimRecon:高保真组合式场景重建,打通「感知-生成-模拟」全流程
具体来说,在“感知”到“生成”的转换过程中,为确保视觉效果的真实性,我们采用了“主动视角优化”技术,该技术能在三维空间中寻找最佳的投影图像,作为生成单个物体的依据。此外,我们的框架利用合成的场景图来指导基于物理的资产组装,确保最终配置的物理合理性,不会出现悬浮或穿透的情况。具体来说,为了弥合从感知到生成的鸿沟,这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件,我们引入了主动视点优化,它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。我们的方法SimRecon的整体框架。
2026-04-30 08:59:26
273
原创 CVPR‘26 Highlight 开源 | 清华SimRecon:高保真组合式场景重建,打通「感知-生成-模拟」全流程
具体来说,在“感知”到“生成”的转换过程中,为确保视觉效果的真实性,我们采用了“主动视角优化”技术,该技术能在三维空间中寻找最佳的投影图像,作为生成单个物体的依据。此外,我们的框架利用合成的场景图来指导基于物理的资产组装,确保最终配置的物理合理性,不会出现悬浮或穿透的情况。具体来说,为了弥合从感知到生成的鸿沟,这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件,我们引入了主动视点优化,它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。我们的方法SimRecon的整体框架。
2026-04-30 08:59:26
303
原创 CVPR‘26 Highlight 开源 | 清华SimRecon:高保真组合式场景重建,打通「感知-生成-模拟」全流程
具体来说,在“感知”到“生成”的转换过程中,为确保视觉效果的真实性,我们采用了“主动视角优化”技术,该技术能在三维空间中寻找最佳的投影图像,作为生成单个物体的依据。此外,我们的框架利用合成的场景图来指导基于物理的资产组装,确保最终配置的物理合理性,不会出现悬浮或穿透的情况。具体来说,为了弥合从感知到生成的鸿沟,这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件,我们引入了主动视点优化,它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。我们的方法SimRecon的整体框架。
2026-04-30 08:59:26
508
原创 CVPR‘26 Highlight 开源 | 清华SimRecon:高保真组合式场景重建,打通「感知-生成-模拟」全流程
具体来说,在“感知”到“生成”的转换过程中,为确保视觉效果的真实性,我们采用了“主动视角优化”技术,该技术能在三维空间中寻找最佳的投影图像,作为生成单个物体的依据。此外,我们的框架利用合成的场景图来指导基于物理的资产组装,确保最终配置的物理合理性,不会出现悬浮或穿透的情况。具体来说,为了弥合从感知到生成的鸿沟,这需要将非结构化和杂乱的三维几何表示转换为生成模型的有效图像条件,我们引入了主动视点优化,它在三维场景中智能搜索具有最大信息增益的最优视角作为最佳视点条件。我们的方法SimRecon的整体框架。
2026-04-30 08:59:26
400
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
12
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
10
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
7
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
17
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
12
转载 CVPR‘26 | 雷达+相机多模态融合新SOTA
逐步消融研究验证了各组件的有效性,简单特征拼接可改善时间一致性,可变形对齐增强运动感知融合,引入门控机制增益最大,Squeeze - and - Excitation 无额外益处,DGTF 增强了 BEV 定位和 3D 检测性能,且使用最近的前一帧融合效果最佳。:对于解码后的预期深度图 d_hat,结合稀疏雷达锚定深度和密集伪地面真值(Metric3D) dg_dense 作为监督,应用平滑 L1 损失,防止潜在雷达离群值导致的梯度爆炸,通过损失函数确保关键点的高精度和全场景的结构覆盖。
2026-04-29 07:02:51
8
转载 CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
为了训练和评估Dark3R,我们引入了一个全新的、首创的数据集,包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像,以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。使用这个数据集,我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此,我们的工作为被动式3D传感的新应用开辟了弱光环境。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图,这表明随着信噪比的降低,我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。
2026-04-28 07:04:04
35
转载 CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
为了训练和评估Dark3R,我们引入了一个全新的、首创的数据集,包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像,以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。使用这个数据集,我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此,我们的工作为被动式3D传感的新应用开辟了弱光环境。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图,这表明随着信噪比的降低,我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。
2026-04-28 07:04:04
12
转载 CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
为了训练和评估Dark3R,我们引入了一个全新的、首创的数据集,包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像,以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。使用这个数据集,我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此,我们的工作为被动式3D传感的新应用开辟了弱光环境。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图,这表明随着信噪比的降低,我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。
2026-04-28 07:04:04
105
转载 CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
为了训练和评估Dark3R,我们引入了一个全新的、首创的数据集,包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像,以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。使用这个数据集,我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此,我们的工作为被动式3D传感的新应用开辟了弱光环境。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图,这表明随着信噪比的降低,我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。
2026-04-28 07:04:04
11
转载 CVPR‘26 Highlight开源 | VGGT并非全能?Dark3R:低光照条件下鲁棒的特征匹配和相机姿态估计!
为了训练和评估Dark3R,我们引入了一个全新的、首创的数据集,包含约42,000张具有精确3D标注的多视角、包围曝光的原始图像,以及另外约20,000张涵盖近100个不同场景的高信噪比多视角原始图像。使用这个数据集,我们证明了Dark3R能够在先前方法失败的地方实现准确的相机姿态和深度估计——因此,我们的工作为被动式3D传感的新应用开辟了弱光环境。我们绘制了所有四个场景和包围曝光捕获的平均PSNR与图像信噪比的关系图,这表明随着信噪比的降低,我们的方法实现了持续较低的姿态和深度误差以及较高的重建质量。
2026-04-28 07:04:04
12
转载 CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
本文中,我们提出了SwiftVGGT,一种无需训练的方法,能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理,同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。如表2所示,现有的基于三维视觉基础模型的方法,如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT,由于内存使用过多,通常无法处理长序列,导致跟踪丢失或内存不足错误。其次,VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环,该编码器与VGGT内部的DINO编码器分离,引入了额外的计算负担。
2026-04-27 07:02:52
27
转载 CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
本文中,我们提出了SwiftVGGT,一种无需训练的方法,能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理,同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。如表2所示,现有的基于三维视觉基础模型的方法,如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT,由于内存使用过多,通常无法处理长序列,导致跟踪丢失或内存不足错误。其次,VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环,该编码器与VGGT内部的DINO编码器分离,引入了额外的计算负担。
2026-04-27 07:02:52
31
转载 CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
本文中,我们提出了SwiftVGGT,一种无需训练的方法,能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理,同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。如表2所示,现有的基于三维视觉基础模型的方法,如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT,由于内存使用过多,通常无法处理长序列,导致跟踪丢失或内存不足错误。其次,VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环,该编码器与VGGT内部的DINO编码器分离,引入了额外的计算负担。
2026-04-27 07:02:52
11
转载 CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
本文中,我们提出了SwiftVGGT,一种无需训练的方法,能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理,同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。如表2所示,现有的基于三维视觉基础模型的方法,如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT,由于内存使用过多,通常无法处理长序列,导致跟踪丢失或内存不足错误。其次,VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环,该编码器与VGGT内部的DINO编码器分离,引入了额外的计算负担。
2026-04-27 07:02:52
25
转载 CVPR‘26开源 | SwiftVGGT:大规模3D场景重建的可扩展VGGT,4分钟跑完4542张图像!
本文中,我们提出了SwiftVGGT,一种无需训练的方法,能够在不增加额外内存成本的情况下显著加速大规模稠密重建的推理,同时保持甚至提高重建质量。我们的方法包含两个关键组成部分。如表2所示,现有的基于三维视觉基础模型的方法,如MASt3R-SLAM、CUT3R、Fast3R和FastVGGT,由于内存使用过多,通常无法处理长序列,导致跟踪丢失或内存不足错误。其次,VGGT-Long通过运行一个独立的、基于DINO的VPR编码器来检测闭环,该编码器与VGGT内部的DINO编码器分离,引入了额外的计算负担。
2026-04-27 07:02:52
12
转载 三维重建中SfM/MVS与NeRF/3DGS的核心区别:一文看懂底层逻辑
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。学习3D视觉核心技术,扫码即可加入,近20+门3D视觉精品课程畅学无阻。
2026-04-26 00:01:47
67
转载 Spark 2.0 开源之后:三维重建的技术终局,已经定了!
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。的闭环,在精度、速度、规模、工程化与生态上全面领先,没有任何其他技术路线可与之抗衡,
2026-04-25 00:01:36
58
转载 Spark 2.0 开源之后:三维重建的技术终局,真的定了?
知识星球是一个高度活跃的社区平台,在这里你可以和相同研究方向的小伙伴一起探讨科研工作难题、交流最新领域进展、分享3D视觉最新顶会论文&代码资料、分享视频(讲解3D视觉重要知识点)、发布高质量的求职就业信息,承接项目等,当然还可以侃侃而谈,吐槽学习工作生活。细分方向众多,包括但不限于:工业3D视觉、三维重建、自动驾驶、具身智能、大模型、扩散模型等科技前沿方向,也涉及视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流等。的闭环,在精度、速度、规模、工程化与生态上全面领先,没有任何其他技术路线可与之抗衡,
2026-04-25 00:01:36
38
转载 CVPR‘26 Oral | MAGICIAN:让Agents也有想象力,主动探索新SOTA
该方法通过利用预训练的3d world model生成“Imagined Gaussians”(一种快速的体素化场景结构表示),结合树搜索进行多步规划,从而确定最优的探索路径。借助其基于先验的内部模拟机制,系统能够在不执行真实动作的情况下评估多种潜在结果,从而做出更具前瞻性的选择。MAGICIAN 通过表明在采用合适表示的前提下,高效的长时规划是可行的,从而推动了主动建图领域的发展。在图中,Imagined Gaussians 中较浅的颜色表示更高的新颖性,而较深的颜色对应已经观测过的区域。
2026-04-25 00:01:36
30
转载 CVPR‘26 Oral | MAGICIAN:让Agents也有想象力,主动探索新SOTA
该方法通过利用预训练的3d world model生成“Imagined Gaussians”(一种快速的体素化场景结构表示),结合树搜索进行多步规划,从而确定最优的探索路径。借助其基于先验的内部模拟机制,系统能够在不执行真实动作的情况下评估多种潜在结果,从而做出更具前瞻性的选择。MAGICIAN 通过表明在采用合适表示的前提下,高效的长时规划是可行的,从而推动了主动建图领域的发展。在图中,Imagined Gaussians 中较浅的颜色表示更高的新颖性,而较深的颜色对应已经观测过的区域。
2026-04-25 00:01:36
23
转载 CVPR‘26 Oral | MAGICIAN:让Agents也有想象力,主动探索新SOTA
该方法通过利用预训练的3d world model生成“Imagined Gaussians”(一种快速的体素化场景结构表示),结合树搜索进行多步规划,从而确定最优的探索路径。借助其基于先验的内部模拟机制,系统能够在不执行真实动作的情况下评估多种潜在结果,从而做出更具前瞻性的选择。MAGICIAN 通过表明在采用合适表示的前提下,高效的长时规划是可行的,从而推动了主动建图领域的发展。在图中,Imagined Gaussians 中较浅的颜色表示更高的新颖性,而较深的颜色对应已经观测过的区域。
2026-04-25 00:01:36
30
socket通信技术
2018-01-23
GBK.h QT中显示中文
2018-01-18
socket通信界面程序
2018-01-24
粒子滤波在图像领域的跟踪
2018-04-25
PCL1.8.0+VS2013+Win10 x64的配置教程
2018-05-08
如何在Linux下使用“linuxdeployqt”源码打包发布Qt程序
2022-07-18
ubuntu下基于Clion+QT编写的界面demo,适合入门
2022-07-11
linux下TCP通讯助手
2022-06-30
本demo主要实现ubuntu下实现与PLC以及机械臂之间的TCP网络通讯,并将C++代码编译成可以供C函数直接调用的C库。
2022-06-22
Windows下TCP通讯实战demo及TCP助手
2022-06-03
Linux下的TCP通讯实战demo以及通讯助手下载
2022-06-03
UKF(无迹卡尔曼滤波)
2020-12-03
particle_filter_demo.zip
2020-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅