目标检测 (Object Detection) 算法汇集

最新推荐文章于 2025-11-02 20:05:28 发布

原创

最新推荐文章于 2025-11-02 20:05:28 发布 · 6w 阅读

334 ·

CC 4.0 BY-SA版权

本文详述了目标检测的重要性和深度学习在这一领域的应用，包括R-CNN及其改进模型，以及YOLO系列算法。文章指出，R-CNN通过转换检测问题为分类问题，结合CNN实现较好效果，但速度较慢。而YOLO通过端到端的训练，提升了速度，成为实时目标检测的热门选择。深度学习时代的检测算法分为两阶段和一阶段，分别侧重准确性和速度。

基于深度学习的目标检测综述(一）(2018年03月16日)
图像分类，检测及分割是计算机视觉领域的三大任务。图像分类模型（详情见这里）是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，就需要目标检测模型，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体（给出边界框）。目标检测在很多场景有用，如无人驾驶和安防系统。
这里写图片描述

Google在2017年开源了TensorFlow Object Detection API，并对主流的Faster R-CNN，R-FCN及SSD三个算法在MS COCO数据集上的性能做了细致对比（见Huang et al. 2017），如下图所示。
Faster R-CNN，R-FCN及SSD算法在MS COCO数据集上的性能对比

对于一张图片，R-CNN基于selective search方法大约生成2000个候选区域，然后每个候选区域被resize成固定大小（ $227\times 227$ ）并送入一个CNN模型中，最后得到一个4096-d的特征向量。然后这个特征向量被送入一个多类别SVM分类器中，预测出候选区域中所含物体的属于每个类的概率值。每个类别训练一个SVM分类器，从特征向量中推断其属于该类别的概率大小。为了提升定位准确性，R-CNN最后又训练了一个边界框回归模型。训练样本为 $(P, G)$ ，其中 P=(P

最低0.47元/天解锁文章