图像分类
ImageNet 图像库(斯坦福计算机视觉实验室)
1400w+images 2w+ labels
ILSVRC(ImageNet Large Scale Visual Recognition Challenge 大规模视觉识别挑战赛)
AlexNet
ResNet(微软)
Inception-v3/v4(Google)
目标检测
- two stage(物体识别、定位分为两个步骤;速度较慢,不能实时)
RCNN 局部卷积神经网络
RPN (Region Proposal Networks 候选区域生成网络)
Fast R-CNN
Faster R-CNN - one stage
SSD
YOLO
YOLO v2
图像分割
mask RCNN
数据集
COCO
PASCAL VOC
经典网络
LeNet-5
LeCun et al., 1998, Gradient-based learning applied to document recognition
- 针对灰度图像训练
- 平均池化avg pooling,现在用最大池化max pooling更多一点
- 当时不太使用padding和有效卷积valid convolutions
- 随着网络越来越深,图像的高度和宽度都在缩小,信道数在增加
- conv pool conv pool fc fc output
- 由于当时计算机计算的限制,采用了复杂的计算方法,filter的信道数和图像的信道数相同…
AlexNet
Krizhevsky et al., 2012, ImageNet classification with deep convolutional neural networks
- 原文是224* 224* 3,但是227* 227* 3更好
- LeNet和AlexNet对比:
- LeNet 6w+参数;AlexNet6000w+参数
- AlexNet能够处理非常相似的包含大量隐藏单元或数据的基本构造模块
- LeNet使用的是sigmoid/tanh激活函数;AlexNet用的ReLU
- 当时GPU速度较慢,模型在两个GPU上训练,将层拆分到两个GPU上,使用某种方法让两个GPU进行交流
VGG-16
- 一种只需要专注于构建卷积层的简单网络;16:包含16个卷积层和全连接层
- 1.38亿+参数
ResNet
Residual block (He et al., 2015, Deep residual networks for image recognition)
- 普通网络 Plain network
shortcut/ skip connections 跳远连接
residual block 残差块 - 普通网络在构建更深的网络时误差会减少后增加,ResNet可以避免这个问题,构建更深的网络
Inception
Szegedy et al., 2014, Going deeper with convolutions
代替人工来确定卷积层中的过滤器类型,或者确定是否需要创建卷积层或池化层
给网络添加这些参数的所有可能值,然后把输出连接起来,让网络自己学习它需要什么样的参数,采用哪些过滤器组合
先压缩成一个小的网络,再扩大,减小了运算成本
- bottleneck layer瓶颈层
- 计算成本从1.2亿降到12.4million
Inception模块 Inception网络
Overfeat
Sermanet et al., 2014, OverFeat: Integrated recognition localization and detection using convolutional networks
不需要把输入图片分割成四个子集分别执行前向传播,把它们作为一张图片输入给卷积网络进行计算即可,其中的公共区域可以共享很多计算
缺点:边界框的位置不够准确
YOLO
Redmon et al., 2015, You Only Look Once: Unified real-time object detection
- 将图片分为几个部分,分别计算y
- 物体的中心点在哪个框,该框的y1=1
非极大值抑制 Non-max suppression example
算法可能会对同一对象做出多次检测,非极大值抑制做的就是清理这些检测结果,使一个对象只检测一次
选中概率最大的矩形后,抑制去掉其他IoU值很高的矩形。
概率大的矩形会被高亮,其他的会变暗
Anchor Boxes
一个格子检测出多个对象
用anchor boxes表示不同类别的对象,用同一个y(3* 3* 16)表示(如图)
R-CNN
Girshik et. al, 2013, Rich feature hierarchies for accurate object detection and semantic segmentation
Region proposal 候选区域
不再滑动区域,在每个窗口都卷积,是选择部分窗口进行卷积操作(跑分类器算法)
- 运行图像分割算法 segmentation algorithm,图像分成色块
- 先找出2000+色块,在色块上放置边界框并跑分类器(比所有位置跑一遍快,减少卷积花费时间)
比较慢
Fast R-CNN
用卷积实现了滑动窗法,但是得到候选区域的聚类步骤仍然非常缓慢
Faster R-CNN
用卷积神经网络得到色块,而不是图像分割的方法