计算机视觉——目标检测入门级综述

本文介绍了目标检测的任务及其与图像分类的区别,详细阐述了卷积神经网络(CNN)的发展历程,包括输入层、卷积层、池化层和全连接层。接着,文章回顾了从R-CNN到Mask R-CNN等一系列经典目标检测算法,分析了它们的优缺点,并探讨了当前目标检测领域的现状和发展趋势。
摘要由CSDN通过智能技术生成

背景与动机

目标检测任务

       首先理解什么是目标检测任务,它与图片分类有何区别?
目标检测实例
       理解目标检测算法就要先明确它的输入和输出:

输入:原始图片
输出:是什么?(类别)在哪里?(位置)

       与图片识别(分类)的区别在于,目标检测任务还要将物体具体的位置标出。如上图,不同颜色的框内标记着检测出的不同类型的物体,有自行车、人汽车、摩托车、信号灯等。每一个框都有一个标签,里面标注了物体的类别,以及该物体为此类别的置信度/概率。

深度学习发展历程

深度学习发展历程

错误率
       目前使用深度学习对图片进行处理已经非常成熟,准确率已接近人类的认知水平。

目标检测发展历程

目标检测发展历程
       2012年,AlexNet网络提出,是卷积神经网络发展也是深度学习发展的分水岭。2014年,深度学习正式用于目标检测任务。

卷积神经网络

人类视觉原理
       卷积神经网络是人类视觉原理的一种体现,即可视皮层是分级的。主要过程为:

视网膜输入原始信号->摄入像素
大脑皮层初步处理->边缘和方向
抽象->形状
进一步抽象->物体

LeNet
       最早的卷积神经网络是YannLeCun提出的LeNet,应用于手写数字识别。主要包含:输入层、卷积层、池化层、全连接层。

输入层

在全连接神经网络中,输入时由图片像素组成的一个向量。
在卷积网络中输入的是一个图片的矩阵形式,它保留了图片的空间结构信息。

卷积层

       卷积层是卷积网络的核心组件,其主要作用是从输入中提取特征。
       特点:权值共享、局部连接。
卷积过程
逐层特征提取

池化层

       用于降低特征图的维度。
       保留最重要的信息,减少了噪声,防止过拟合。
       使网络具有一定的平移不变性(图像中的目标不管被移动到图片的哪个位置,得到的标签应该是相同的)。
       常见的池化有最大池化和平均池化,池化对应图像的下采样。

最大池化
池化对应图像的下采样

全连接层

       最初的CNN使用全连接层,用于整合前面学习到的特征,通过非线性组合得到更高级的特征,即从隐层特征空间映射到样本标记空间。
       但是全连接层存在问题,就是要求输入的特征图尺度必须固定。因为全连接层部分的参数是神经元对于所有输入的连接权重,若输入尺寸不固定,全连接层参数的个数则无法固定。

卷积神经网络经典模型

开山之作:LeNet-1998
LeNet
王者归来:AlexNet-2012
AlexNet
稳步前行:ZFNet-2013
ZFNet
越走越深:VGGNet-2014
VGGNet
大浪推手:GoogLeNet-2014
GoogleNet
goolenet
闪光点:
1、引入Inception结构;
2、中间层的辅助LOSS单元;
3、后面的全连接层全部替换为简单的全局平均pooling。
里程碑式创新:ResNet-2015

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值