论文阅读笔记--Transformation of Images from Multiple Vehicle-Mounted Camerasto a Semantically Segmented...

最新推荐文章于 2024-04-30 15:05:03 发布

远在远方_hh

最新推荐文章于 2024-04-30 15:05:03 发布

阅读量1.7k

点赞数

分类专栏： transformer论文阅读论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_43704656/article/details/122393479

版权

论文阅读同时被 2 个专栏收录

2 篇文章 1 订阅

订阅专栏

transformer论文阅读

1 篇文章 0 订阅

订阅专栏

写在前面：一些介绍

monocular cameras单目摄像机：需要对目标进行识别，也就是说在测距前先识别障碍物是车、人还是别的什么。在此基础上再进行测距。缺点：需要大量数据且要不断更新

双目摄像头：则更加像人类的双眼，主要通过两幅图像的视差计算来确定距离。也就是说，双目摄像头不需要知道障碍物是什么，只要通过计算就可以测距。缺点：计算量庞大

reality gap：由于模拟器对于物理环境的建模都是存在误差的，因而在模拟环境中学习到的最优策略往往不能直接在现实环境中应用，我们把这个问题称为 “reality gap”。而sim2real的工作就是去尝试解决这个问题

关于Homography单应性变换详细了解可参照这篇：https://zhuanlan.zhihu.com/p/74597564

论文：A Sim2Real Deep Learning Approach for the Transformation of Images from Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird’s Eye View

自动驾驶的关键要素是对环境的精准感知。对于平面，反向透视映射(Inverse Perspective Mapping, IPM)可以精确地将图像转换为边界向量。但三维物体如车辆、道路会被这种变换扭曲变形，这使得很难估计他们相对于传感器的位置。

本文提出由多个车载摄像机图像转换成360°的鸟瞰图(BEV)像，对这个BEV进行语义类分割，并且预测被遮挡的部分。所提出的这种神经网络方法并不依赖于人工标记的数据，而是在合成数据集上进行训练，并泛化到真实世界的数据。通过使用语义分割的图像作为输入，减少了模拟数据和真实数据之间的现实差距，证明该方法可以成功地应用于现实世界。