目标检测 | Deep MANTA 算法笔记

最新推荐文章于 2024-08-21 02:21:14 发布

Nani_xiao

最新推荐文章于 2024-08-21 02:21:14 发布

阅读量1.2k

点赞数 2

分类专栏：论文阅读笔记目标检测文章标签：目标检测

本文链接：https://blog.csdn.net/xiao_lxl/article/details/88953638

版权

目标检测同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

论文阅读笔记

13 篇文章 3 订阅

订阅专栏

文章目录

主要思想
系统架构
实验：
Reference：

会议：CVPR 2017

标题：《Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image》

论文链接： https://arxiv.org/abs/1703.07570

本文仅作为个人学习笔记分享，图片来自于论文，如有侵权，请联系删除。

主要思想

提出了一种新的方法Deep MANTA(Deep Many-Tasks)，通过一张图片完成多项车辆分析任务，包括车辆检测、局部定位、可视化特征描述以及3D估计。基于coarse-to-fine object proposal 提升车辆检测效果。并且，Deep MANTA网络可以检测出半遮挡的车辆。在推断过程中，网络的输出作为一个鲁棒的实时位姿估计算法的输入，来进行姿态估计和三维车辆定位。

在这里插入图片描述
图1是系统输出。
图1的上部分是二维的车辆包围框、部件定位和部分可视化。红色的点代表可视部分，绿色的点表示遮挡部分，蓝色的点表示被自身遮挡的部分。
下部分是三维车辆包围框和三维车辆局部定位。

系统架构

在这里插入图片描述
图2 系统架构

整个系统由两部份组成。第一部分，第一部分是将输入图片输入 Deep MANTA network 来生成 2D scored bounding boxes，associated vehicle geometry( vehicle part coordinates ,3D template similarty ) 和 part visibility properties.
第二部分是推理部分，使用 Deep MANTA network 的2D输出和 3D 车辆数据集来恢复 3D 方向和定位。

3D形状和模板数据库
使用一个具有 M 个车辆类型（Sedan,SUV,etc）的 3D model. 每一个 3D model上标记 N 个顶点（称为 3D parts）。3D shape 定义为 3D 空间中所有 part 的坐标的集合。3D template 是一个3D model 对应的长宽高。如下图所示

在这里插入图片描述

2D/3D车辆模型

在这里插入图片描述

Semi-automatic annotation 是一个为 Deep MANTA 网络提供标签（vehicles part coordinate , part visibility , 3D template）的半自动化标注过程。这个过程只需要一个具有 3D bounding box 的真实数据集和一个 3D CAD 数据集。这个 CAD 数据集具有 M 个 3D car ，人工的在每一个 model 上标注 N 个顶点。使用最相近的 3D bounding box 来匹配真实数据集的车辆和 3D CAD 的model. 被选择的 CAD 的 3D parts 将会投射到真实图片上来得到 2D part coordinates. 2D part 的可见性使用可见性网格计算。过程如下图

在这里插入图片描述

实验：

在 KITTI 数据集上评估方法，KITTI数据集包括 7481 个训练图片和 7518 个测试图片，同时还提供了校准矩阵。但是测试图片的 groundtruth 并没有给出，所以在训练集中提取出部分作为测试集。使用一个具有 103 个 3D model 的 CAD 数据集来进行半自动标注。使用 VGG 或者 GoogLenet 结构，ImageNet 初始化，RPN 具有 7 aspect ratios 和 10 scales。训练中，object proposal 如果和 groundtruth 重合大于 0.7 视为正例。所有的规范化参数 λ ，除了part localization task 设置为3 其他都设为 1。

2D vehicle detectionand orientation:
比其他的方法快，因为许多方法都是将 KITTI 数据集的图片放大 3 倍进行训练。下面的表格展示了特征层的选择，第一层优于第五层，本文的方法最优。

在这里插入图片描述