基于深度学习的SLAM概述

目的

本博客总结最近看的几篇关于深度学习的SLAM以及基于深度学习的稠密重建,简要对比记录特点

对比

年份名称类型框图前端输出地图方法特点回环
2023Point-SLAMRGBD-SLAM请添加图片描述渲染的RGB和深度loss来优化pose和点的神经描述子每帧pose和全局点云稠密地图全局点云稠密地图点云周围提取特征,MLP解码,渲染得到RGB和深度图像,loss优化位姿和点云神经描述子没有回环
2023DIM-SLAMmono-VSLAM请添加图片描述重投影patch损失+ RGB图像loss每帧的pose和最终的全局稠密地图全局稠密地图多分辨率特征网格+MLP解码器+ RGB损失+重投影多帧path的光流损失输入RGB图像,不需要深度图像,重建稠密地图没有回环
2023NICER-SLAMmono-SLAM在这里插入图片描述单目深度估计+单目法向量估计+光流估计每帧的pose和SDF提取的稠密点云或mesh全局SDF优化多分辨率分层网格+MLP解码+多项损失最小化单目获取稠密地图并输出位姿没有回环
2023Orbeez-SLAMmono-slam请添加图片描述VSLAM每帧的pose,稀疏点云地图,NERF获取的稠密点云地图前端ORBSLAM2估计位姿和稀疏点云地图, 后端NERF估计稠密MLP地图前端后端解耦合,前端传统SLAM算法回环可以依靠ORBSLAM2
2022DPVOmono-VO在这里插入图片描述VO每一帧的pose和paches转到3D坐标系下的3D点,稀疏点云稀疏3D点云拼接提取每张图的feature_map, 随机提取多个patch + 根据初始位姿投影到滑窗内的其余帧 + 网络迭代找到匹配点target + 每个patch投影到其余帧,和对应的匹配点target构成重投影误差,BA优化滑窗内帧的位姿和匹配点target的位置+ patch为二维块,其中心对应的逆深度,加上当前帧的pose,可以转为3D点云。patch匹配时考虑了局部特征和context特征,BA优化时候,也优化patch轨迹,即2D匹配点位置没有回环
2022GCVDmono-sfm在这里插入图片描述RAFT稠密光流, MASK-CNN剔除动态物体视频流的所有相机位姿和稠密深度图像没有建图RAFT稠密光流相邻帧的相对pose+MSCK-CNN语义剔除动态物体+MiDAS估计深度先验+光流视差筛选关键帧+深度特征聚合关键帧,并稠密光流计算相对pose+构建带权重的pose-graph+ 仅优化pose的BA + 网络固定pose, 优化关键帧和非关键帧的深度(代价方程:两帧之间的投影光度误差+光流一致性+地图一致性)全局一致性
2022ParticleSfMmono-sfm在这里插入图片描述RAFT连续跟踪多帧sfm地图和相机pose全局sfm稠密特征点地图RAFT稠密光流连续跟踪+光流剔除动态物体+光流多帧构建track+ 全局sfm BA动态物体剔除,网络泛化好没有回环,类似滑窗光流SLAM
2021DROID-SLAMmono-VSLAM在这里插入图片描述全图像素点+稠密光流匹配输出每个关键帧的位姿和稠密深度图像全局场景稠密点云地图RAFT稠密光流+稠密BA+重投影误差GPU显存占用较大(前端实时需要8GGPU显存,后端由于需要存储所有图像的featuremap,因此,显存占用会很大,5000帧需要24GB),位姿和全局地图精度高遍历全部关键帧构建帧图
2021NeuralReconmono-TSDF重建在这里插入图片描述分段TSDF重建+GRU融合位姿已知全局TSDF稠密网格没有全局优化,实时稠密单目重建,增量式重建认为位姿已知且准确
2021CodeMappingMapping在这里插入图片描述基于稀疏特征SLAM输出每个关键帧的位姿和稠密深度图像全局3D TSDF模型稀疏基于特征法得到的关键帧位姿,稀疏点云,稀疏点的平均重投影误差,VAE估计初始带有不确定度的稠密深度图像+多帧优化当前帧的稠密深度与稀疏SLAM(ORBSLAM3)并行,不直接优化深度像素点,优化一个深度code回环依靠稀疏SLAM保证,多帧优化时不优化关键帧位姿,仅优化深度code。
2021TANDEMMono-VSLAM在这里插入图片描述稠密直接法,采用TSDF中投影到当前帧的较稠密深度输出每个关键帧的位姿和稠密深度图像TSDF稠密建图稠密深度图像直接法前端+ 稀疏梯度点关键帧滑窗BA后端,类似DSO类似DSO没有回环和全局BA,实时VO位姿和多帧MVS融合的关键帧稠密深度图像
2020DeepFactorsMono-VSLAM在这里插入图片描述整张图像的LK光流,跟踪上一个关键帧输出每个关键帧的位姿和稠密深度图像全局场景稠密点云地图整张图像稠密LK光流前端跟踪+滑窗内因子图优化关键帧的pose和深度编码code(光度误差,重投影误差因子,稀疏几何因子)+BRISK描述子,词袋闭环检测深度编码重建的稠密深度不准确BRISK描述子回环,因子图增加边。
2021CodeVIOMono-VIO在这里插入图片描述稀疏点跟踪MSCKF-VIO输出每个关键帧的位姿和稠密深度图像局部场景稠密点云地图MSCKF-VIO + MSCKF优化深度编码(稀疏点云和灰度图像生成关键帧初始深度编码)局部点云,且点云不准,位姿精度依靠VIO精度没有回环
  • 3
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
深度学习视觉SLAM是一种将深度学习和视觉SLAM相结合的研究方向。视觉SLAM(Simultaneous Localization and Mapping)是一种利用相机或其他传感器来实时构建环境地图并同时定位自身位置的技术。而深度学习是一种机器学习的方法,通过构建和训练深度神经网络模型来解决复杂的视觉和语言处理问题。 深度学习在视觉SLAM中的应用主要有以下几个方面。 首先,深度学习可以用于特征提取和描述子学习。传统的SLAM方法通常依赖于手工设计的特征来进行地图构建和定位,但是手工设计的特征容易受到环境变化的影响,而深度学习可以通过大规模数据的训练来学习具有不变性和鲁棒性的特征表示,从而提高SLAM系统的鲁棒性和稳定性。 其次,深度学习可以用于位姿估计和地图优化。传统的SLAM方法通常使用基于滤波器或图优化的方法来估计相机的位姿,并利用位姿估计结果来进行地图的更新和优化。而深度学习可以通过训练神经网络模型来预测相机的位姿,从而提高位姿估计的准确性和实时性。 此外,深度学习还可以用于SLAM系统的场景理解和物体识别。传统的SLAM方法通常只对环境进行地图构建和定位,而深度学习可以通过训练神经网络模型来实现对场景中物体的检测和识别,从而实现对环境的更加深入的理解。 总之,深度学习视觉SLAM是一项将深度学习与传统视觉SLAM相结合的研究方向,可以通过利用深度学习的强大能力来提高SLAM系统的鲁棒性、稳定性、准确性和实时性,并实现对环境的更加深入的理解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值