自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(503)
  • 收藏
  • 关注

原创 3天400 star!ETH开源DepthSplat:连接3DGS和深度估计!

在本文中,我们介绍了DepthSplat,这是一种将高斯溅射(splatting)与深度相结合的新方法,旨在ScanNet、RealEstate10K和DL3DV数据集上的深度和视图合成任务上实现最优结果。我们还展示了,通过高斯溅射渲染损失,我们的模型能够实现无监督的预训练深度,从而提供了一种利用大规模未标注多视图图像数据集来训练更多具有多视图一致性和鲁棒性的深度模型的方法。我们当前的模型需要输入相机姿态信息以及多视图图像,移除这一要求将是未来令人兴奋的研究方向。

2024-10-30 17:09:48 622

原创 NeurlPS‘24开源 | 无需复杂地图!LoD-Loc:无人机六自由度定位新SOTA!

我们提出了一种名为LoD-Loc的新方法,用于空中视觉定位。与现有的定位算法不同,LoD-Loc不依赖于复杂的3D表示,而是可以使用细节层次(Level-of-Detail,LoD)3D地图来估计无人机(Unmanned Aerial Vehicle,UAV)的姿态。LoD-Loc主要通过将LoD投影模型衍生的线框与神经网络预测的线框进行对齐来实现这一目标。

2024-10-30 16:53:35 902

原创 港科大最新!降低190倍内存!MEGA:用于动态场景的内存高效4DGS

4D高斯Splatting (4DGS)是最近出现的一种有前途的技术,用于捕捉高保真的复杂动态三维场景。它利用4D高斯表示和GPU友好的光栅化器,实现快速渲染速度。尽管有其优势,4DGS面临着巨大的挑战,特别是数百万4D高斯函数的需求,每个函数都具有广泛的关联属性,导致大量的内存和存储成本。本文介绍了一个高效的4DGS内存框架。我们通过将颜色属性分解为每高斯直接颜色分量来简化颜色属性,该分量只有3个参数和一个共享的轻量级交流颜色预测器。

2024-10-30 16:39:50 711

原创 中科院开源TRLO:具有3D动态目标跟踪和移除的高效激光雷达里程计

同时进行状态估计和地图创建是移动机器人在动态城市环境中工作的基本能力。大多数现有的SLAM解决方案严重依赖于基本静态的假设。然而,由于移动车辆和行人的存在,这种假设并不总是成立,导致定位精度下降和地图失真。为了应对这一挑战,我们提出了TRLO,一种动态激光雷达里程计,它可以有效地提高状态估计的精度,并生成更清晰的点云地图。为了有效地检测周围环境中的动态对象,应用了基于深度学习的方法,生成检测包围盒。

2024-10-30 16:30:38 643

原创 ACCV‘24 | 三维重建谁言不败?探索黑暗和无纹理环境下的SfM!

本文中,我们提出了一种使用神经符号距离场(Neural SDF)的同时形状重建和姿态估计方法,用于结构化光(Structured Light,SL)系统,我们称之为主动结构光运动恢复结构(Active SfM)。为了实现这一目标,我们为结构化光系统提出了一种体积渲染管道,并引入了混合编码,以实现稳健的姿态估计和高保真形状重建。实验结果表明,所提出的方法仅利用投影图案的信息和合成数据集及真实数据集中粗略的初始姿态,即可有效地恢复场景几何结构。

2024-10-30 16:23:45 694

原创 超越SOTA!Interactive4D:第一个交互式4D LiDAR分割!

我们提出了交互式4D分割,这是一种新用户交互范式,允许用户同时在多个扫描结果中分割多个对象,以及Interactive4D——首个遵循此范式的交互式4D分割方法。与以往仅限于单个对象和单次扫描的方法相比,Interactive4D的效率显著提高。结合我们为稀疏LiDAR扫描量身定制的新点击模拟策略,它在准确性方面也表现出色,并以大幅优势达到了最先进的性能水平。我们希望Interactive4D能够减少未来LiDAR数据集所需的标注工作量。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

2024-10-30 15:27:06 662

原创 ECCV‘24|超越标注!PixOOD:无OOD样本训练也能像素级异常检测!

我们提出了一种密集图像预测的异常检测算法,称为PixOOD。该算法无需在异常数据样本上进行训练,也不针对特定应用,从而避免了传统训练偏差。为了在像素级建模分布内数据的复杂类内变化,我们提出了一种在线数据压缩算法,其鲁棒性优于标准的K-means,并且能够通过随机梯度下降(SGD)轻松训练。我们在多个问题上对PixOOD进行了评估,结果显示,在七个数据集中的四个上取得了最新的最佳表现,且在其余数据集上表现具有竞争力。源代码可在 https://github.com/vojirt/PixOOD 获得。

2024-10-30 15:24:14 446

原创 ECCV‘24开源 | 视觉定位全新方案!转换检测为分割任务,打造新SOTA!

我们提出了一种新的基于Transformer的模型SegVG,用于视觉定位任务。具体而言,我们引入了多层多任务编码器-解码器,以迭代方式充分利用边界框注释,从而纳入像素级监督。此外,我们通过三元对齐模块解决了查询、文本和视觉之间的领域差异问题,以提高后续的目标定位性能。大量实验证明了SegVG的优越性能。此外,我们还探讨了我们的分割输出在现实世界应用中的可靠性优势。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~本文仅做学术分享,如有侵权,请联系删文。

2024-10-30 15:23:13 478

原创 清华开源PixelGaussian:从任意视图进行可泛化的3D高斯重建

在本文中,我们提出了PixelGaussian方法,旨在从任意输入视角学习可泛化的三维高斯重建。我们方法的核心创新在于上下文感知的级联高斯适配器(Context-aware Cascade Gaussian Adapter,CGA),该适配器能够动态地将具有复杂几何细节区域的高斯分布进行拆分,并剔除冗余部分。此外,我们在迭代高斯细化器(Iterative Gaussian Refiner,IGR)中融入了可变形注意力机制,促进了图像与高斯分布之间的直接交互,从而提升了局部几何结构的重建质量。

2024-10-30 15:20:53 992

原创 无纹理SLAM和SfM全新方案!GSLoc:基于3D GS的视觉定位,无惧大视角变化!

我们提出了一种名为GSLoc的新型视觉定位技术,该技术基于三维高斯溅射环境图表示。我们在合成数据和真实数据上都已证明,该方法能够实现精确的相机位姿估计。我们通过对各种相机初始化和参数化的全面收敛性分析,验证了这一点。我们深入探讨了由于光度损失的非凸性导致的收敛局限性,并提出了一种由粗到精的策略来缓解这一问题。最后,我们提出了一种有效的方法,通过改进GSLoc的相机初始化来提升定位结果,该初始化是通过使用经过精细图像库扩展的3DGS渲染相机帧进行图像检索获得的。

2024-10-30 15:19:37 867

原创 三维重建大一统!LSM:无需先验位姿,首次实现实时语义3D重建!

我们引入了大型空间模型(LSM),这是一个从未校准和未定位的图像中进行整体三维语义重建的统一框架,并增加了通过语言进行交互的能力。LSM利用跨视图注意力来聚合多视图线索,并利用多尺度跨模态注意力将语义丰富的特征整合到基于点的表示中。层次化的逐点聚合层进一步精炼这些表示,并增强了跨模态注意力的整合。通过投射回归的非各向同性三维高斯分布,LSM能够生成具有多功能标签图的新视图。LSM具有高效性,能够实现端到端的三维建模,并支持各种下游应用。

2024-10-30 15:16:02 971

原创 扩散模型入门教程:数学原理、方法与应用

扩散模型(Diffusion Models)是一种近年来备受关注的生成模型,它通过逐步反向模拟噪声的扩散过程,生成高质量的图像、文本甚至音频。相比于传统生成对抗网络(GAN),扩散模型在生成质量和稳定性上表现出色,且逐渐成为诸多AI生成任务中的首选。

2024-10-30 15:02:35 1175

原创 奥比中光 Gemini 335 VS 英特尔 Realsense D435i,谁才是顶流?

经过对比测试,可以看出奥比中光Gemini 335在户外阳光、复杂场景、运动场景下的成像效果优于英特尔RealSenseD435i,且具备更大的深度及 RGB FOV,支持硬件与软件D2C。价格方面,Gemini 335的官方定价为1950元,而RealSenseD435i的官方定价为 334 美金(约 2382 元),价格上,Gemini 335更具竞争力。使用体验上,Gemini 335及整个奥比中光双目3D相机Gemini 330系列为用户提供丰富全面的产品支持和出色体验。

2024-10-30 15:00:55 573

原创 ECCV‘24开源 | 视觉定位全新方案!转换检测为分割任务,打造新SOTA!

我们提出了一种新的基于Transformer的模型SegVG,用于视觉定位任务。具体而言,我们引入了多层多任务编码器-解码器,以迭代方式充分利用边界框注释,从而纳入像素级监督。此外,我们通过三元对齐模块解决了查询、文本和视觉之间的领域差异问题,以提高后续的目标定位性能。大量实验证明了SegVG的优越性能。此外,我们还探讨了我们的分割输出在现实世界应用中的可靠性优势。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~本文仅做学术分享,如有侵权,请联系删文。

2024-10-30 14:52:32 593

原创 顶刊TIV!无缝嵌入SLAM回环检测&重定位!基于深度特征的视觉位置识别!

本文介绍了三种新的无模型重排序方法,这些方法通常适用于所有标准的局部视觉特征。这些方法主要是为了深度学习局部视觉特征而设计的,因为它们特别适用于长期自主应用。这类特征的关键优势在于,它们通常对环境中的各种外观变化保持高度的鲁棒性。为了评估和测试所引入的方法,它们与D2-net特征检测器一起被应用到一个新的VPR系统中。该系统将所提出的重排序方法与SSM-VPR过滤阶段或MixVPR相结合。该系统在六个公共数据集上进行了实验评估,并与几种最先进的解决方案进行了直接比较。

2024-10-30 14:44:16 851

原创 无惧任何复杂地形!开启机器人导航新纪元!全新通用网格地图gridmap论文+源码解析...

gridmap属于一种 复合局部移动地图。底层基于Eigen实现,使用时可以高效、便捷的操作地图数据。gridmap通常由多层layer组成,每一层用于表达相互关联的不同信息。并且可以无拷贝高效地实现地图中心跟随robot移动。下图是单层gridmap栅格地图示意图。首先要明确栅格地图的尺寸、分辨率以及中心位置,通常会将grid map center设置为机器人当前位置(全局坐标系下),并根据实际需求(观测精度及范围要求)合理设置地图尺寸以及分辨率。

2024-10-23 07:01:32 1014

原创 冲刺CVPR2025顶会!

2024-10-18 16:41:21 206

原创 超越SOTA!Interactive4D:第一个交互式4D LiDAR分割!

在这项工作中,我们提出了交互式4D分割,这是一种允许同时分割多个激光雷达扫描上的多个对象的新范式,以及interactive 4D,这是第一个交互式4D分割模型,它通过利用激光雷达数据的顺序性质,在单次迭代中分割叠加的连续激光雷达扫描上的多个对象。因此,独立标注每个扫描是不高效的,会导致不必要的标注工作。受基于注意力模型的交互式分割方法取得成功的启发,我们进行了关键性的技术改进,以充分发掘此类模型在LiDAR点云中的潜力,并引入了如图2所示的Interactive4D——我们的交互式4D分割模型。

2024-10-16 18:43:55 738

原创 BMCV 2024 | 跨视角不确定性,让无人机助力更鲁棒的道路场景合成

在Scaffold-GS的横向对比上,本文方法相比空地联合训练在保留测试集上PSNR提高了0.66 (NYC) 和0.59 (SF),视角平移与旋转时PSNR提高了0.47 (NYC)和 0.57 (SF) ,并且逆转了空地联合训练对SSIM与LPIPS的负面影响,全部指标甚至优于用高清航拍数据辅助训练的效果。为了利用无人机视角中的丰富信息来辅助地面数据的训练,我们首次将跨视角不确定性的概念融入3D-GS模型中,在训练过程中对航拍图像中的像素进行加权。图2. 不同方法在地面数据或地面和航拍数据训练的结果。

2024-10-16 18:42:12 719

原创 Mamba其实是线性注意力?NeurIPS‘24开源:揭开Mamba成功的神秘面纱

Mamba是一种有效的状态空间模型,具有线性计算复杂度。最近,它在处理各种视觉任务的高分辨率输入方面表现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力变压器有着惊人的相似之处,后者在实践中的表现通常不如传统变压器。通过探索有效的曼巴和亚线性注意力转移器之间的相似性和差异,我们提供了全面的分析来揭示曼巴成功背后的关键因素。

2024-10-12 18:57:14 971

原创 点云配准新思路!DFLIOM:更快、更准、更省内存的LiDAR SLAM!

在本文中,我们提出了一种基于学习特征提取器的LIO(Lidar-Inertial Odometry,激光雷达-惯性里程计)系统DFLIOM,用于提取显著且独特的特征。与两种最先进的LIO系统DLIO和DLIOM相比,我们的方法在提升定位精度的同时,显著减少了内存使用,并且能够在20 Hz的激光雷达下实时运行。我们利用不同激光雷达采集的多个公共基准测试数据集以及校园内自主采集的数据集,验证了DFLIOM的性能。此外,我们还进行了消融研究,以展示所提特征提取器的有效性。

2024-10-12 18:55:54 754

原创 1V1顶会论文辅导终于来了!

2024-10-12 18:53:44 291

原创 RepControlNet:不增加计算量,实现扩散模型的可控生成

随着扩散模型的广泛应用,推理资源的高成本成为其普遍应用的重要瓶颈。可控生成如ControlNet是扩散模型的重点研究方向之一,与推理加速和模型压缩相关的研究更为重要。为了解决这一问题,提出了一种模态重参数化方法RepControlNet,在不增加计算量的情况下实现扩散模型的可控生成。在训练过程中,RepControlNet使用适配器将模态信息调制到特征空间中,复制原始扩散模型的CNN和MLP可学习层作为模态网络,并基于原始权重和系数初始化这些权重。训练过程仅优化模态网络的参数。

2024-10-10 18:48:52 936

原创 NeurlPS‘24开源 | 想分割什么随便说!DeiSAM:使用提示分割一切!

我们提出DeiSAM架构,以在复杂场景中进行指示性对象分割。DeiSAM在一个模块化流程中有效地将大规模神经网络与可微分前向推理相结合。DeiSAM允许用户通过与其他对象的关系,直观地描述复杂场景中的对象。此外,我们还引入了新颖的指示性视觉基因组(DeiVG)基准,用于具有复杂指示性提示的分割任务。在大量实验中,我们证明DeiSAM显著优于神经基线方法,凸显了其在处理具有复杂文本提示的视觉场景时的强大推理能力。为此,我们的实证结果揭示了视觉场景理解中的开放研究问题和未来研究的重要方向。

2024-10-10 18:44:43 862

原创 重磅发布!3D视觉各个方向交流群成立啦!

2024-10-09 19:25:22 566

原创 彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化

在第一期课程的基础上细化且深化了理论知识的讲解,且专门增加了实践篇,加深所学的理论知识,并结合实际工作中遇到的问题增加了算法优化章节。从早期的经典SLAM框架,cartographer,LOAM,Lego-LOAM 在到近期的采用融合优化的LIO-SAM,LVI-SAM。其中LOAM框架为经典的3D激光SLAM框架,后续一些开源算法也是在此基础上进行优化改进(Lego-LOAM,A-LOAM,VLOAM,lio-sam,lio-mapping,fast-lio)。4. 工业级的实战项目与经验分享;

2024-10-09 15:43:23 929

原创 如何看待“人工神经网络获得诺贝尔物理学奖”?

这种预训练为网络中的连接提供了更好的起点。自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等。:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

2024-10-09 15:40:11 547

原创 NeurIPS‘24开源 | AlterMOMA:完美融合相机-激光雷达,全部感知任务SOTA!

相机-激光雷达融合模型显著增强了自动驾驶中的感知性能。融合机制利用了每种模式的优势,同时最大限度地减少了它们的缺点。此外,在实践中,相机-激光雷达融合模型利用预先训练的主干进行有效训练。然而,我们认为,由于融合机制的性质,直接将单模态预训练相机和激光雷达主干加载到相机-激光雷达融合模型中会引入跨模态的相似特征冗余。不幸的是,现有的剪枝方法是针对单模态模型开发的,因此,它们难以有效地识别相机-激光雷达融合模型中的这些特定的冗余参数。

2024-10-09 15:35:35 835

原创 3D视觉全栈学习路线!涉及SLAM、三维重建、自动驾驶、无人机、具身智能等!

2024-10-08 14:45:56 520

原创 8行代码教你创建自己第一个扩散模型!

这denoising-diffusion-pytorch软件包还允许您在特定数据集上训练扩散模型。只需替换'path/to/your/images'中数据集目录路径的字符串Trainer()对象,然后更改image_size设置为适当的值。之后,只需运行代码来训练模型,然后像以前一样进行采样。注意,PyTorch必须在启用CUDA的情况下编译,以便使用Trainer类别:扩散模型是一种概念上简单而优雅的数据生成方法。

2024-10-08 14:42:02 652

原创 摆脱高性能GPU依赖!MGSO:轻量、快速、精确的稠密SLAM

具有密集3D映射的实时SLAM在计算上具有挑战性,尤其是在资源有限的设备上。三维高斯分布(3DGS)的最新发展为实时密集三维重建提供了一种有前途的方法。然而,现有的基于3DGS的SLAM系统难以平衡硬件简单性、速度和地图质量。大多数系统在上述一两个方面都很出色,但很少能实现所有方面。一个关键问题是在同时进行SLAM时初始化3D高斯分布的困难。为了应对这些挑战,我们提出了单目GSO (MGSO),这是一种集成光度SLAM和3DGS的新型实时SLAM系统。

2024-10-08 14:38:09 728

原创 重定位新思路!已开源!MambaPlace:最新跨模态点云位置识别

视觉语言位置识别(VLVPR)通过结合来自图像的自然语言描述来增强机器人定位性能。VLVPR利用语言信息指导机器人位置匹配,克服了单纯依靠视觉的限制。多模态融合的本质在于挖掘不同模态之间的互补信息。然而,一般的融合方法依赖于传统的神经架构,并且不能很好地捕捉跨模态交互的动态,尤其是在存在复杂的模态内和模态间相关性的情况下。为此,本文提出了一种新的由粗到细、端到端连通的跨模态地点识别框架,称为MambaPlace。在粗略定位阶段,文本描述和3D点云分别由预训练的T5和实例编码器编码。

2024-10-06 17:18:32 1019

原创 无需复杂昂贵的传感器!开源好用!SoMaSLAM:稀疏距离感知的2D图SLAM

我们提出了一种用于稀疏距离感测的图SLAM算法,该算法结合了利用地标-地标约束的软曼哈顿世界。稀疏距离感测对于微型机器人来说是必要的,微型机器人没有使用笨重和昂贵的传感器的奢侈。处理稀疏距离感测的现有SLAM方法缺乏准确性,并且由于对数据点的有限访问而随着时间积累漂移误差。使用结构规则来掩盖这一缺陷的算法,如曼哈顿世界(MW),在绘制与规则不一致的真实世界环境时有缺点。我们提出了SoMaSLAM,这是一个2D图SLAM,专为具有稀疏距离感知的微型机器人设计。

2024-10-06 17:13:29 647

原创 相机精确定位!最新重定位框架引领机器人自主探索!

重新识别(ReID)是计算机视觉中的一个关键挑战,主要在行人和车辆的背景下进行研究。然而,健壮的对象实例ReID对自主探索、长期感知和场景理解等任务具有重要意义,但仍未得到充分探索。在这项工作中,我们通过提出一种新的双路径对象实例重识别转换器架构来解决这一差距,该架构集成了多模态RGB和深度信息。通过利用深度数据,我们展示了在杂乱或具有不同照明条件的场景中ReID的改进。此外,我们开发了一个基于ReID的定位框架,能够跨不同视点进行精确的摄像机定位和姿态识别。

2024-10-06 17:09:50 626

原创 NeurlPS‘24开源 | 摆脱障碍物!DC-Gaussian:行车记录仪也能玩Gaussian

我们提出了DC-高斯,一种从车载仪表盘摄像头视频生成新视图的新方法。虽然神经渲染技术在驾驶场景中取得了长足的进步,但现有的方法主要是为自动车辆收集的视频设计的。然而,与dash cam视频相比,这些视频在数量和多样性方面都是有限的,dash cam视频更广泛地用于各种类型的车辆,并捕捉更广泛的场景。Dash cam视频经常遭受严重的障碍,例如挡风玻璃上的反射和遮挡,这极大地阻碍了神经渲染技术的应用。

2024-10-06 17:08:27 1031

原创 NeurIPS‘24开源 | 万能预测未来!Vista:第一个高保真、多功能通用驾驶世界模型

世界模型可以预见不同动作的结果,这对自动驾驶至关重要。然而,现有的驾驶世界模型在对未知环境的泛化、关键细节的预测逼真度以及灵活应用的动作可控性方面仍然存在局限性。在本文中,我们提出了Vista,一个通用的驾驶世界模型,具有高保真度和多方面的可控性。基于对现有方法的系统诊断,我们引入了几个关键因素来解决这些限制。为了以高分辨率准确预测真实世界的动态,我们提出了两种新的损失来促进移动实例和结构信息的学习。我们还设计了一个有效的潜在替代方法来注入历史框架作为连贯的长期部署的先验。

2024-10-06 17:04:40 976

原创 超越NeRF-LOAM!全新动态LiDAR SLAM革新NeRF!

同步定位和测绘(SLAM)的最新进展日益凸显了激光雷达技术的稳健性。与此同时,神经辐射场(NeRF)为3D场景重建引入了新的可能性,以SLAM系统为例。其中,NeRF-LOAM在基于NeRF的SLAM应用中表现显著。然而,尽管这些系统有其优势,但由于其固有的静态假设,它们在动态室外环境中经常遇到困难。为了解决这些限制,本文提出了一种新的方法,旨在改善高动态户外场景重建。基于NeRF-LOAM,建议的方法包括两个主要部分。首先,我们将场景分为静态背景和动态前景。

2024-10-06 17:03:33 762

原创 浙大最新开源!SplatLoc:基于3D Gaussian实现精确视觉定位(章国锋团队)

视觉定位在增强现实(AR)的应用中起着重要的作用,它使AR设备能够在预先构建的地图中获得它们的6自由度姿态,以便在真实场景中渲染虚拟内容。然而,大多数现有方法不能执行新颖的视图渲染,并且需要大的地图存储容量。为了克服这些限制,我们提出了一种有效的视觉定位方法,能够以较少的参数进行高质量的渲染。具体来说,我们的方法利用3D高斯图元作为场景表示。为了确保用于姿态估计的精确的2D-3D对应,我们开发了用于高斯图元的无偏的3D场景特定描述符解码器,其从构造的特征体中提取。

2024-10-06 17:02:07 1054

原创 TUM&帝国理工新作!为视觉惯性SLAM打造自主无人机探索

未知空间的自主探索是移动机器人在现实世界中部署的重要组成部分。安全导航对所有机器人应用都至关重要,需要机器人周围环境的精确和一致的地图。为了实现完全自主并允许在各种各样的环境中部署,机器人必须依赖于随时间推移容易漂移的机载状态估计。我们提出了一个基于局部子地图的微型飞行器(MAV)探索框架,通过对相对子地图姿态应用闭环校正来保持全局一致性。为了实现大规模勘探,我们从局部子地图边界有效地计算全球、全环境边界,并使用基于采样的次最佳视图勘探规划器。

2024-10-06 16:59:09 945

原创 无惧遮挡!无惧不准确深度值!CAMOT:多目标跟踪最新SOTA!

本文提出了CAMOT,一种简单的摄像机角度估计器,用于多目标跟踪,以解决两个问题:1)遮挡和2)深度方向上不准确的距离估计。假设每个视频帧中有多个对象位于一个平面上,CAMOT使用对象检测来估计摄像机角度。此外,它给出了每个对象的深度,使伪3D运动。我们通过将其添加到MOT17和MOT20数据集上的各种2D MOT方法来评估其性能,并确认其有效性。将CAMOT应用于ByteTrack,我们在MOT17中获得了63.8%的HOTA、80.6%的MOTA和78.5%的IDF1,这是最先进的结果。

2024-10-06 16:57:37 767

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除