3D视觉从入门到精通
文章平均质量分 85
博主及合伙人,先后就职于知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于知名研究院,致力于3D算法、VLAM算法,涉及相机标定、手眼标定、结构光、点云、三维重建等研究,同时也是CSDN博客专家。
3D视觉工坊
公众号「3D视觉工坊」博主,微信:cv3d007
展开
-
吊打BEVFormer!全任务SOTA!GaussianBeV:3D GS杀入BEV分割!
鸟瞰图(BeV)表示法广泛用于从多视图相机图像中进行3D感知。它允许将来自不同相机的特征合并到公共空间中,为3D场景提供统一的表示。关键组件是视图转换器,它将图像视图转换为鸟瞰图。然而,基于几何或交叉注意力的实际视图转换方法并未提供场景的足够详细表示,因为它们对3D空间进行了子采样,这对于建模环境的精细结构而言并非最优。在本文中,我们提出了GaussianBeV,这是一种通过将场景用一组位于3D空间中并定向的3D高斯分布进行精细表示,从而将图像特征转换为鸟瞰图的新方法。原创 2024-07-26 07:01:31 · 320 阅读 · 0 评论 -
ECCV‘24开源 | 塑造SLAM新纪元!6倍加速!LocoTrack:跟踪一切最新SOTA!
我们引入了LocoTrack,这是一个为跨视频序列跟踪任意点(TAP)任务而设计的高度准确且高效的模型。在此任务中,之前的方法通常依赖于局部2D相关图,以建立查询图像中的一个点到目标图像中局部区域的对应关系,但这种方法在处理同质区域或重复特征时往往会遇到困难,从而导致匹配模糊。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用跨区域的全对对应关系(即局部4D相关性)来建立精确的对应关系,通过双向对应关系和匹配平滑性显著提高了对抗模糊性的鲁棒性。原创 2024-07-28 00:01:20 · 405 阅读 · 0 评论 -
Mamba刚火就凉了?视觉真的需要Mamba吗?
Mamba,一种具有类似RNN的状态空间模型(SSM)的标记混合器的架构,最近被引入以解决注意力机制的二次复杂度,并随后应用于视觉任务。然而,与卷积和基于注意力的模型相比,Mamba在视觉方面的性能通常令人失望。在本文中,我们深入探讨了Mamba的本质,并在概念上得出结论,即Mamba非常适用于具有长序列和自回归特性的任务。对于视觉任务,由于图像分类既不符合长序列特性也不符合自回归特性,我们假设Mamba对于这个任务不是必要的;原创 2024-05-18 00:01:22 · 720 阅读 · 0 评论 -
CVPR‘24 | 3D-GS再进化,Scaffold-GS实时自适应视图渲染的未来
本文介绍了一种名为Scaffold-GS的新型3D神经场景表示方法,用于实现高效的自适应视图渲染。该方法利用SfM中的锚点引导3D高斯函数的结构排列,并通过视角相关的MLP实时解码其属性。实验证明,Scaffold-GS方法能够利用更紧凑的高斯函数集合实现与甚至更好于SOTA算法相媲美的结果。尤其在挑战性案例中,Scaffold-GS的自适应视图神经高斯函数表现出明显的优势。原创 2024-05-25 00:01:16 · 460 阅读 · 0 评论 -
349 FPS!开源!CoR-GS:仅需3张图片即可训练Gaussian场景!
三维高斯点云投影(3DGS)创建一个由三维高斯函数组成的辐射场来表示一个场景。在训练视角稀疏的情况下,3DGS很容易出现过拟合,从而对重建质量产生负面影响。本文介绍了一种新的共正则化视角,用于改善稀疏视角下的3DGS。当使用相同的场景稀疏视角训练两个三维高斯辐射场时,我们观察到这两个辐射场表现出"点争议"和"渲染争议",这可以无监督地预测重建质量,这源于密度化中的采样实现。我们进一步通过评估高斯函数点表示之间的配准,并计算其渲染像素之间的差异,量化了点争议和渲染争议。原创 2024-05-28 07:01:38 · 182 阅读 · 0 评论 -
最新综述!全面总结动态NeRF!
神经辐射场(NeRF)是一种新颖的隐式方法,可以实现高分辨率的三维重建和表示。在首次提出NeRF的研究之后,NeRF获得了强大的发展力量,并在三维建模、表示和重建领域蓬勃发展。然而,最初以及随后大多数基于NeRF的研究项目都是静态的,这些项目在实际应用中较为薄弱。因此,越来越多的研究者对研究动态NeRF感兴趣并关注,因为动态NeRF在实际应用或情景中更为可行和有用。与静态NeRF相比,实现动态NeRF更加困难和复杂。但是动态NeRF在未来具有更大的潜力,甚至是可编辑NeRF的基础。原创 2024-05-31 07:01:55 · 160 阅读 · 0 评论 -
CVPR‘24开源 | NeRF正式占领LiDAR新视角合成!
尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了胜利,但LiDAR NVS仍然很大程度上未被探索。之前的LiDAR NVS方法采用了一种简单的从图像NVS方法到LiDAR的转换,同时忽略了LiDAR点云的动态特性和大规模重建问题。基于此,我们提出了LiDAR4D,一个用于新颖时空LiDAR视角合成的可微分LiDAR-only框架。考虑到稀疏性和大规模特性,我们设计了一个4D混合表示,结合多平面和网格特征,以粗到精的方式实现有效的重建。此外,我们引入了从点云中导出的几何约束以提高时间一致性。原创 2024-04-10 10:11:07 · 113 阅读 · 0 评论 -
不需要雷达了?MIT最新开源4D激光雷达生成框架!真实感炸裂!
我们提出了LidarDM,一种新颖的激光雷达生成模型,能够产生逼真、布局感知、物理合理和时间连贯的激光雷达视频。LidarDM以两个前所未有的能力在激光雷达生成建模中脱颖而出:(i)受驾驶场景指导的激光雷达生成,为自动驾驶模拟提供了显著潜力;(ii)4D激光雷达点云生成,实现了逼真和时间连贯的序列创建。我们模型的核心是一种新颖的集成4D世界生成框架。具体而言,我们采用潜在扩散模型生成3D场景,将其与动态角色结合以形成基础的4D世界,随后在这个虚拟环境中产生逼真的感知观察。原创 2024-04-09 07:00:21 · 68 阅读 · 0 评论 -
深度思考:工业异常检测中如何摆脱特定阈值的限制?
异常检测和分割(AD&S)对于工业质量控制至关重要。虽然现有方法在为每个像素生成异常分数方面表现出色,但实际应用需要产生一个二进制分割来识别异常。由于许多实际场景中缺乏标记的异常,标准做法是基于仅包含正常样本的验证集导出的一些统计数据对这些地图进行二值化,从而导致分割性能不佳。本文通过提出一种测试时间训练策略来解决这个问题,以改善分割性能。事实上,在测试时间,我们可以直接从异常样本中提取丰富的特征来训练一个能够有效区分缺陷的分类器。原创 2024-04-09 07:00:21 · 109 阅读 · 0 评论 -
浙大最新!低成本!通用!无人机自适应避障方案!
本文研究了用于快递投递的四轴飞行器障碍物避障轨迹控制(OATC)问题。提出了一种新的非线性自适应学习控制器,该控制器成本低廉且适用于不同轮距大小的无人机,以适应无人机投递任务中的大角度机动和负载变化。该控制器由非线性可变增益(NLVG)函数和极值搜索(ES)算法组成,以减小超调和稳定时间。最后,在四轴飞行器上进行了模拟实验,验证了所提出的控制方案在两种典型的无碰撞轨迹下的有效性。本文研究了四轴飞行器障碍物避让的主动运动控制问题。原创 2024-04-10 10:11:07 · 101 阅读 · 0 评论 -
无需校准!通用!辅助摄像头让FPP系统校准更加高效!
结构光投影技术是一种代表性的主动方法,用于三维重建,但许多研究人员在复杂的投影仪校准过程中面临挑战。为了解决这个复杂性,我们使用了一个额外的摄像头,暂时称为辅助摄像头,来消除对投影仪校准的需求。辅助摄像头帮助构建合理的模型方程,使得能够基于绝对相位信息生成世界坐标。一旦校准完成,辅助摄像头就可以被移除,减轻了遮挡问题,使系统能够保持其紧凑的单摄像头、单投影仪设计。我们的方法不仅解决了数字条纹投影系统中校准投影仪的常见问题,而且增强了利用条纹投影的各种形状的三维成像系统的可行性,而无需复杂的投影仪校准过程。原创 2024-04-11 07:01:51 · 84 阅读 · 0 评论 -
深度思考:视觉深度学习模型一定越大越好吗?
将视觉模型的规模扩大已成为获取更强大视觉表征的事实标准。在这项工作中,我们讨论了更大的视觉模型不再必要的点。首先,我们展示了尺度上的扩展(S2)的力量,在这种情况下,一个预先训练并冻结的较小的视觉模型(例如ViT-B或ViT-L),在多个图像尺度上运行,可以在分类、分割、深度估计、多模态LLM(MLLM)基准和机器人操纵方面胜过较大的模型(例如ViT-H或ViT-G)。值得注意的是,S2在对V*基准的MLLM进行详细理解方面达到了最先进的性能,超过了诸如GPT-4V之类的模型。原创 2024-04-11 07:01:51 · 104 阅读 · 0 评论 -
ICRA‘24开源 | 全局定位新思路:在激光雷达地图中查询图像位置!
城市尺度的激光雷达地图的可用性使得利用移动摄像头进行城市尺度的地点识别成为可能。然而,城市尺度的激光雷达地图通常需要进行压缩以提高存储效率,这增加了在压缩的激光雷达地图中进行直接视觉地点识别的难度。本文提出了VOLoc,一种准确高效的视觉地点识别方法,利用几何相似性直接通过实时捕获的图像序列查询压缩的激光雷达地图。在离线阶段,VOLoc使用几何保持压缩器(GPC)压缩激光雷达地图,其中压缩是可逆的,这是下游6DoF姿态估计的一个关键要求。原创 2024-04-12 07:00:37 · 105 阅读 · 0 评论 -
小于50ms!IEEE‘24最新,高效低延迟UVA检测系统!
无人机(Unmanned Aerial Vehicles, UAVs)在民用和军事应用中越来越受欢迎。然而,对受限区域的未经控制的访问威胁到隐私和安全。因此,预防和检测无人机对于保证机密性和安全至关重要。尽管主要基于雷达的主动扫描是最精确的技术之一,但它可能比被动检查,例如对象识别,更昂贵且不太灵活。动态视觉传感器(Dynamic Vision Sensors, DVS)是一种受生物启发的基于事件的视觉模型,利用了快速移动场景中的时间戳像素级亮度变化,很好地适应于低延迟目标检测。原创 2024-04-13 00:02:29 · 43 阅读 · 0 评论 -
CVPR‘24 Highlight!跟踪3D空间中的一切!
视频中恢复密集且长距离的像素运动是一个具有挑战性的问题。部分困难来自于3D到2D的投影过程,导致2D运动领域出现遮挡和不连续性。虽然2D运动可能很复杂,但我们认为潜在的3D运动通常是简单且低维的。在这项工作中,我们提出通过估计3D空间中的点轨迹来减轻图像投影引起的问题。我们的方法,命名为SpatialTracker,使用单眼深度估计器将2D像素转换为3D,使用三平面表示高效地表示每一帧的3D内容,并使用变换器执行迭代更新来估计3D轨迹。原创 2024-04-13 00:02:29 · 66 阅读 · 0 评论 -
CVPR‘24开源!最强医学异常检测模型重磅来袭!
本文介绍了一种将自然领域中预训练的视觉-语言模型应用于医学异常检测的方法。通过跨领域泛化,该方法适用于不同的医学图像模态和解剖区域。具体而言,本文提出了一种多级特征适应方法,通过视觉-语言对齐指导每个适应过程,实现从高级语义到像素级分割的转变。此外,结合基于比较的异常检测策略,该方法能够灵活适应具有实质性模态和分布差异的数据集。实验结果表明,该方法在零/少样本AC和AS任务上表现优异,展示了未来研究的潜在价值。本文仅做学术分享,如有侵权,请联系删文。原创 2024-04-14 00:00:45 · 97 阅读 · 0 评论 -
NeRF最新综述!超全!
近年来,神经辐射场(NeRF)在计算机视觉和图形领域取得了显著进展,为解决包括3D场景理解、新视角合成、人体重建、机器人学等关键任务提供了强大的技术支持,学术界对这一研究成果的关注日益增长。作为一种革命性的神经隐式场表示,NeRF在学术界引发了持续的研究热潮。因此,本综述的目的是对过去两年内有关NeRF的研究文献进行深入分析,为初涉研究者提供全面的学术视角。本文首先详细阐述了NeRF的核心架构,然后讨论了各种改进NeRF的策略,并在不同的应用场景中对NeRF进行了案例研究,展示了其在不同领域的实际效用。原创 2024-04-14 00:00:45 · 304 阅读 · 0 评论 -
3D GS再下一城!360°视角的场景生成!沉浸式体验!
增加对虚拟现实应用的需求凸显了打造沉浸式三维资产的重要性。我们提出了一种文本到三维 360∘ 场景生成管道,可以在几分钟内创建野外环境下的全景 360∘ 场景。我们的方法利用了二维扩散模型的生成能力和提示的自我精化,创建了一个高质量且全局一致的全景图像。这个图像充当初步的"平面"(2D)场景表示。随后,它被提升为三维高斯函数,利用点阵技术实现实时探索。为了产生一致的三维几何形状,我们的管道通过将二维单眼深度对齐成全局优化的点云来构建空间一致的结构。这个点云作为三维高斯函数的质心的初始状态。原创 2024-04-15 11:04:36 · 71 阅读 · 0 评论 -
CVPR‘24开源!超亿个! 超大规模3D识别数据集3DCOMPAT++
3DCOMPAT++是一个包含10M个样式化模型的大规模数据集,涵盖了10000个3D形状,跨越了41个物体类别。该数据集提供了3D形状、细粒度和粗粒度语义级别的部分分割信息以及材料兼容性信息,可以为同一形状的部分分配多个高质量的PBR材料。此外,该数据集还引入了一个新的任务,称为Grounded CoMPaT Recognition (GCR),并提出了解决这些任务的基线方法。原创 2024-04-15 11:04:36 · 46 阅读 · 0 评论 -
120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!
大多数基于3D高斯光斑(3D-GS)的城市场景方法直接使用3D激光雷达点初始化3D高斯函数,这不仅未充分利用激光雷达数据的能力,而且忽视了将激光雷达与相机数据融合的潜在优势。在本文中,我们设计了一种新颖的紧密耦合的激光雷达-相机高斯光斑(TCLC-GS),以充分利用激光雷达和相机传感器的综合优势,实现快速、高质量的3D重建和新视角RGB/深度合成。TCLC-GS设计了一种混合的显式(着色的3D网格)和隐式(分层八叉树特征)3D表示,从激光雷达-相机数据中导出,以丰富用于光斑处理的3D高斯的属性。原创 2024-04-08 08:02:25 · 210 阅读 · 0 评论 -
如何正确理解无人机中的PID控制?
点击下方卡片,关注「计算机视觉工坊」公众号选择星标,干货第一时间送达点击加入「计算机视觉工坊」技术交流群对于PID的初学者,经常会有疑惑,为什么位置的误差通过PID就变成了期望速度?他们之间有什么物理关系吗?还有对于无人机,为什么期望升力,又是期望加速度,又是期望油门,这个输出的量纲到底是什么?其实,产生这个疑问的根本原因是没有区分开环控制和闭环控制。在实际控制系统中,我们经常用到开环控制和闭环控制的组合。开环控制其实就是前馈,闭环控制是反馈。接下来将以一个简单例子,说明这种这两种控制的关系。对于平面上一原创 2024-04-08 08:02:25 · 116 阅读 · 0 评论 -
Halcon深度学习项目实战系统教程
Halcon在机器视觉中的价值主要体现在提供高效、可扩展、灵活的机器视觉解决方案,帮助用户解决各种复杂的机器视觉问题,提高生产效率和产品质量。Halcon的灵活架构使其能够快速开发出任何类型的机器视觉应用。其全球通用的集成开发环境(HDevelop)有助于降低产品成本,并缩短软件开发周期。Halcon拥有超过2100个算子的成像库,该库支持多核平台、AVX2和NEON等特殊指令集以及GPU加速,从而有效提高机器视觉系统的性能。Halcon适用于多个行业,如工业检测、医学图像分析、农业育种等。原创 2024-03-27 10:58:36 · 155 阅读 · 0 评论 -
大词汇量高质量3D物体生成需要解决哪些问题?如何解决?
为了将之前的在单个类别上优化模型的工作扩展到大词汇量的3D物体生成,本文提出了一种新的基于三平面的3D感知扩散框架DiffTF。它由两个 3D 感知模块组成:1)3D 感知编码器/解码器;2)3D 感知Transformer。基于提取的通用和专门的 3D 先验知识,DiffTF 可以生成具有丰富语义的各种高质量 3D 物体。在ShapeNet和OmniObject3D上与SOTA 方法的对比验证了DiffTF的良好性能。相信这个工作可以为大词汇量 3D 生成提供一些有价值的见解。原创 2024-03-26 15:11:29 · 78 阅读 · 0 评论 -
120倍加速!PanopticNeRF-360:快速生成大量新视点全景分割图像!
训练自动驾驶汽车的感知系统需要大量的注释。然而,在2D图像中手工标记是高度劳动密集型的。虽然现有数据集为预先录制的序列提供了丰富的注释,但它们在标注很少遇到的视点方面存在不足,这潜在地阻碍了感知模型的泛化能力。在本文中,我们提出了PanopticNeRF-360,这是一种新的方法,它将粗糙的3D注释与嘈杂的2D语义线索相结合,以从任何视点生成一致的全景标签和高质量图像。我们的关键见解在于利用3D和2D先验的互补性来相互增强几何和语义。具体来说,我们建议利用3D和2D空间中的噪声语义和实例标签来指导几何优化。原创 2024-03-26 15:09:29 · 119 阅读 · 0 评论 -
深度总结!视觉三维重建colmap框架的现状与未来
众所周知,三维重建的发展已经进入了稳定期,尤其是离线方案的发展几乎处于停滞期,在各大论刊上也很少见到传统sfm+mvs亮眼的文章。这也不难理解,传统的多视图几何内容已经被展现的体无完肤,即使能做出一些impressive创新,也需要非常坚厚的数学基础。商用Photoscan(现在称为Agisoft Metashape)的首个版本于2010年发布。ContextCapture 是由Bentley Systems开发的软件,首个版本发布于2015年。原创 2024-03-02 00:00:29 · 376 阅读 · 0 评论 -
CVPR‘24 | 百度开源DETRs在实时目标检测中胜过YOLOs
在本文中,提出了RT-DETR,据作者所知是第一个实时端到端检测器。作者首先对NMS进行了详细分析,并建立了一个端到端速度基准,验证了当前实时检测器的推理速度受到NMS延迟的事实。作者还从NMS的分析中得出结论,无锚点检测器在相同准确性下优于基于锚点的检测器。为了避免NMS造成的延迟,设计了一个实时端到端检测器,包括两个关键改进组件:一个能够高效处理多尺度特征的混合编码器和提高对象查询初始化的IoU感知查询选择。原创 2024-03-06 07:01:23 · 438 阅读 · 0 评论 -
CVPR‘24 | 秒杀DKM!最鲁棒的特征匹配已开源!
特征匹配是一项重要的计算机视觉任务,涉及估计三维场景两幅图像之间的匹配关系,而密集方法则估计所有这样的匹配关系。其目标是学习一个鲁棒的模型,即一个能够在具有挑战性的真实世界变化下进行匹配的模型。在这项工作中,我们提出了这样一个模型,利用了基于 DINOv2 基础模型的冻结预训练特征。尽管这些特征比从头开始训练的局部特征要稳健得多,但它们固有地粗糙。因此,我们将它们与专门的 ConvNet 微特征相结合,创建一个精确可定位的特征金字塔。原创 2024-03-14 07:04:06 · 410 阅读 · 0 评论 -
麻省理工最新开源!Khronos:动态环境下时空度量语义SLAM的统一方法
感知和理解高度动态和变化的环境对于机器人的自主性是至关重要的能力。虽然在开发动态SLAM方法方面已经取得了很大进展,能够准确估计机器人姿态,但在构建机器人环境的密集时空表示方面却没有给予足够重视。对场景及其随时间演变的详细理解对于长期机器人自主性至关重要,并且对于需要长期推理的任务也是必不可少的,比如在与人类和其他代理共享环境并因此受到短期和长期动态影响的情况下有效运行。为了解决这一挑战,本文定义了时空度量语义SLAM(SMS)问题,并提出了一个有效的因式分解和解决框架。原创 2024-03-13 07:00:47 · 136 阅读 · 0 评论 -
CVPR‘24 | UniMODE:单目3D目标检测大一统!室内室外全搞定!
实现统一的单目3D目标检测,包括室内和室外场景,对于诸如机器人导航之类的应用至关重要。然而,涉及多种数据场景来训练模型会带来挑战,因为它们具有显著不同的特征,例如,不同的几何属性和异构的域分布。为了解决这些挑战,我们基于鸟瞰(BEV)检测范式构建了一个检测器,其中显式特征投影有助于解决使用多种数据场景训练检测器时的几何学习歧义。然后,我们将经典的BEV检测架构分为两个阶段,并提出了一种不均匀的BEV网格设计,以处理由上述挑战引起的收敛不稳定性。原创 2024-03-13 07:00:47 · 245 阅读 · 0 评论 -
上交最新!第一个稠密语义Gaussian Splatting SLAM!
我们提出了SemGauss-SLAM,这是第一个利用3D高斯表示的语义SLAM系统,能够实现准确的3D语义建图、稳健的相机跟踪和高质量的实时渲染。在这个系统中,我们将语义特征嵌入到3D高斯表示中,有效地在环境的空间布局中编码语义信息,以实现精确的语义场景表示。此外,我们提出了特征级别的损失,用于更新3D高斯表示,从而为3D高斯优化提供更高级别的指导。另外,为了减少累积漂移并提高重建精度,我们引入了语义信息的束调整,利用语义关联进行3D高斯表示和相机姿态的联合优化,从而实现更强健的跟踪和一致的映射。原创 2024-03-16 00:01:09 · 256 阅读 · 0 评论 -
上交开源 | 增强各种3D点云任务!状态空间模型无所不能!
最近,由于其在语言和图像领域中具有显著性能、线性复杂度和长序列建模能力,状态空间模型(SSM)引起了极大关注。然而,将SSM扩展到点云领域并不是一件简单的事情,因为SSM需要因果关系,并且点云具有混乱和不规则的特性。在本文中,我们提出了一种新颖的基于SSM的点云处理骨干,命名为Point Mamba,具有因果关系感知的排序机制。为了构建因果依赖关系,我们设计了一种基于八叉树的排序策略,对原始的不规则点进行全局排序,以Z序列顺序排序点,并保留它们的空间接近性。原创 2024-03-21 10:10:15 · 168 阅读 · 0 评论 -
CVPR‘24 | 从有限的2D显微投影到高清3D重建
MicroDiffusion是一种创新的3D重建框架,旨在解决快速体积成像和生物医学研究中对深度丰富可视化的需求。该框架巧妙地结合了Implicit Neural Representation (INR)和Diffusion Models,利用有限的2D投影重建高分辨率的3D图像,显著增强了光学显微镜的成像能力。MicroDiffusion不仅加快了图像采集速度,还保留了3D空间信息,可以以高速获取详细的复杂生物结构图像。原创 2024-03-21 10:10:15 · 95 阅读 · 0 评论 -
清华:定位误差如何影响无人机飞行?
无人机(UAV)的最大安全飞行速度是衡量其在完成各种任务时效率的重要指标。该指标受诸多参数影响,如无人机定位误差、感知范围和系统延迟等。然而,在定位误差方面,尽管已经有许多研究致力于提高无人机的定位能力,但对其对速度的影响缺乏定量研究。在这项工作中,我们对无人机的各种参数与其最大飞行速度之间的关系进行建模。我们考虑了类似于穿越密集森林的场景,在这种场景中,无人机需要迅速避开直前的障碍物,并在避让后迅速重新定向。原创 2024-03-22 07:04:38 · 699 阅读 · 0 评论 -
CVPR‘24开源 | 当NeRF SLAM遇到回环会碰出怎样的火花?
神经RGBD SLAM技术已经显示出在稠密同时定位与地图构建(SLAM)中的潜力,但面临着诸如相机跟踪期间误差累积导致地图失真等挑战。作为回应,我们引入了Loopy-SLAM,它全局优化姿势和稠密的3D模型。我们使用基于数据驱动的基于点的子地图生成方法进行帧到模型的跟踪,并通过执行全局地点识别在线触发循环闭合。鲁棒的姿势图优化用于刚性地对齐本地子地图。由于我们的表示是基于点的,因此可以有效地进行地图校正,无需像通常所需的基于网格的建图结构一样存储用于建图的输入帧的整个历史。原创 2024-03-22 07:04:38 · 72 阅读 · 0 评论 -
重磅开源! 控制一切目标的运动!
我们介绍了 DragAnything,它利用实体表示来实现可控视频生成中任意对象的运动控制。与现有的运动控制方法相比,DragAnything 提供了几个优点。首先,基于轨迹的方法对交互更加友好,当获取其他引导信号(例如,掩模、深度图)需要大量人力时。用户在交互过程中只需要绘制一条线(轨迹)。其次,我们的实体表示作为一种开放域嵌入,能够表示任何对象,从而实现对各种实体(包括背景)的运动控制。最后,我们的实体表示允许同时对多个对象进行同时且独立的运动控制。原创 2024-03-23 00:01:17 · 98 阅读 · 0 评论 -
CVPR‘24开源 | 通过3D GS进行整体城市3D场景理解!
基于RGB图像的城市场景的整体理解是一个具有挑战性但重要的问题。它包括理解几何和外观,以实现新视图合成,解析语义标签,并跟踪移动物体。尽管取得了相当大的进展,但现有方法通常侧重于此任务的特定方面,并需要额外的输入,例如LiDAR扫描或手动注释的3D边界框。在本文中,我们介绍了一种利用3D高斯喷涂的新型管道,用于全面理解城市场景。我们的主要想法涉及使用静态和动态3D高斯的组合,通过物理约束对移动物体姿态进行正则化,从而联合优化几何、外观、语义和运动。原创 2024-03-24 00:00:58 · 214 阅读 · 0 评论 -
无人机2D搜索革新,探索UVA多目标3D搜索
PHD滤波器是一种用于估计目标数量和位置的概率密度函数的方法,其在处理目标测量时执行贝叶斯更新。与传统的概率密度函数不同,PHD滤波器的积分表示预期目标数量而不是概率质量。滤波器利用先验和后验强度函数之间的关系进行更新,其中先验强度函数基于上一时刻的状态预测,而后验强度函数基于测量结果生成。在实际应用中,通常使用一组加权粒子来近似表示强度函数,以便在计算上更有效地处理。PHD滤波器在目标跟踪和检测等领域具有广泛的应用,能够处理多目标和动态环境下的目标跟踪问题。本文介绍了使用无人机寻找未知数量静态目标的问题。原创 2024-03-25 07:01:23 · 82 阅读 · 0 评论 -
NVIDIA最新!SAL:激光雷达分割一切!
我们提出了SAL(激光雷达中的任意分割)方法,包括一个文本提示型的零样本模型,用于分割和分类激光雷达中的任何对象,以及一个伪标记引擎,可促进模型训练,无需手动监督。虽然激光雷达全景分割(LPS)的建立范式依赖于事先定义的少数对象类别的手动监督,但我们利用2D视觉基础模型免费生成3D监督。我们的伪标签由实例掩码和相应的CLIP标记组成,我们使用校准的多模态数据将其提升到激光雷达上。通过在这些标签上训练我们的模型,我们将2D基础模型蒸馏到我们的激光雷达SAL模型中。原创 2024-03-25 07:01:23 · 150 阅读 · 0 评论 -
CVPR‘24 | Lane2Seq:统一车道线检测范式!精度97.95%!
在本文中,我们提出了一种新颖的基于序列生成的车道检测框架,称为Lane2Seq。通过将车道检测视为一个序列生成任务,它统一了各种车道检测格式。这与先前的车道检测方法不同,它们依赖于设计良好的特定任务头网络和相应的损失函数。Lane2Seq仅采用了一个简单的基于Transformer的编码器-解码器架构和一个简单的交叉熵损失函数。此外,我们提出了一种新的基于强化学习的多格式模型调优方法,将任务特定知识纳入Lane2Seq中。原创 2024-03-15 07:03:32 · 229 阅读 · 0 评论 -
代码逐行解析 | 教你在C++中使用深度学习提取特征点
使用深度学习提取特征点的SLAM系统已经很多了,典型工作就是GCN-SLAM和SuperPoint-SLAM。感觉深度学习特征点相较传统ORB、SIFT这类特征点,主要优势在于重复性和鲁棒性,特征点的精度明显提升。缺点就是需要GPU,模型前向推理和NMS的计算本身也非常耗时。而且深度学习特征点的泛化性很差,也很难学习旋转不变性,在大旋转变化的匹配一般都不太好,当然REKD等方案也在专门研究旋转情况。Anyway,任何方法都有自己的优劣,都有适合的场景。原创 2024-03-16 00:01:09 · 186 阅读 · 0 评论