基于SLAM算法和深度神经网络的语义地图构建研究--白云汉随读笔记

最新推荐文章于 2024-05-06 20:58:13 发布

�李王木木�

最新推荐文章于 2024-05-06 20:58:13 发布

阅读量2.2k

点赞数 1

文章标签：自动驾驶

本文链接：https://blog.csdn.net/weixin_44906423/article/details/108783449

版权

摘要

利用目前最新的基于卷积神经网络的目标算法YLOLO，实现场景的实时目标检测，并结合SLAM算法构建语义地图。

引言

传统SLAM是利用传感器原始信息来对机器人的位置与其所处环境的地图信息进行同时估计得问题。输入是传感器设备连续采集到的图像帧序列，输出的是机器人的当前所在的位置以及机器人所处环境的地图点位置。通过对空间中稀疏或稠密的几何点的分析得到机器人当前的精确位置。
本文结合了经典单目SLAM系统和基于回归预测的深度卷积神经网络，实现构建语义地图，将位置信息与语义信息融合。

1.相关工作

     SLAM算法：
     1.稀疏SLAM算法：对视觉信息点进行特征点提取与匹配，分为基于滤波的方法与基于图优化方法。
    
     2.稠密SLAM算法：直接利用图像的梯度信息对机器人相机位置进行估计，利用了图像的所有像素信息，计算量非常大。

本文采用基于ORB特征的ORBSLAM算法，前端部分在图像提取ORB特征与地图中3D地图点进行匹配，后端部分利用匹配结果构建因子图。

2.SLAM算法与目标检测

2.1ORB-SLAM算法
ORB-SLAM是基于关键帧的稀疏SLAM算法，分为跟踪、本地制图、回环检测三个线程。
跟踪：前端中连续图像帧的数据关联问题，并且会对当前帧的位置进行优化估计。
本地制图：地图点的创建与更新。
回环检测：消除累积误差。
2.2目标检测算法
传统的目标检测算法常常分为三个部分。
（1) 选择检测的窗口：这一步对图像进行多位置和多尺度的窗口提取，采用 Selective Search等提取方法，并且基于颜色聚类、边缘聚类把无关区域去除。
（2) 提取视觉特征：特征提取指的是在区域内提取视觉特征，常用的特征有 SIFT、HOG等。
（3) 分类器分类：分类器分类指的是利用提取中的特征，使用机器学习模型对所得特征所属种类进行分类。常用的分类器有 SVM、随机森林、神经网络等。
本文参照基于深度神经网络的 YOLO，将输出层物体种类设为室内常见的 20 类物体。YOLO将物体检测作为一个回归问题求解，基于单一的端到端网络，完成对物体位置以及物体类别的同时预测。
YOLO 将输出图像分为 S × S 个格子，每个格子负责检测落入该格子的物体，若某个物体的中心位置坐标落在某个格子中，那么这个格子就负责检测该物体。每个格子负责输出 B 个 bounding box 信息，以及 C 个物体属于某种类别的概率信息。每个 bounding box 有 5 个数值，分别代表当前格子预测得到的 bounding box 的中心坐标，宽度和高度，以及当前 bounding box 包含物体的置信度。因此最后全连接层输出的维度为 (S × S) × (B × 5 + C) 。本文中， C = 5，B = 2，S = 13。

注：IOU是一种测量在特定数据集中检测相应物体准确度的一个标准。IOU是一个简单的测量标准，只要是在输出中得出一个预测范围(bounding boxex)的任务都可以用IOU来进行测量。两个框分别为：人为标定的正确结果与算法得到的预测结果。

本文中损失函数由三部分构成，分别为预测数据与标定数据之间的坐标误差、IOU误差、分类误差。
在这里插入图片描述
式中: x、y、w、h 为网络预测是坐标信息，其中 x，y 指的是预测中心位置，w、h 为 bounding box 的宽和高。对应的是标签信息。