深度学习第六次课后题

1.深层网络的层次达到一定深度后会产生什么问题?Resnet是如何解决这个问题的?

答:网络层数加深后,网络优化难度加大,性能变差,出现网络模型退化问题。

解决方案:通过浅层次网络模型获得特征直接复制到更深的网络。通过shot cut路径,直接把输入传到输出端,强行作为单位映射部分作为学习中的另一部分。

2.Faster RCNN在RCNN,Fast RCNN的基础上进行了哪些改进?

答:

RCNN:

(1)输入图像。

(2)利用selective search对图像生成1K~2K的候选区域(region proposal),这个量比传统的算法要少得多。具体一点,选出region proposal的方法是运行图像分割算法,对于分割算法跑出来的块,把它作为可能的region proposal输出。

(3)提取特征:将region proposal resize为统一大小,送进去掉了softmax的CNN,对每个候region proposal提取特征。

(4)对区域进行分类:对从CNN output出来的特征向量送进每一类的SVM分类, 如果我有十个类别,那么每个region proposal要跑10个SVM,得到类别。这里为什么要用SVM而不是softmax,有一种说法是为了解决样本不均衡的问题,另外是早期神经网络还不如现在这样发达,当时SVM还是比较领先的分类器。

(5)修正:对CNN output的特征向量(这个特征向量和第4步中拿去喂给SVM的是一个向量)做回归(左上角右下角的四个坐标),修正region proposal的位置。

Fast RCNN:

(1)将任意size的图片输入CNN,得到特征图。在RCNN中,先生成region proposals再做卷积,相当于做了多次卷积,浪费时间。

(2)对原始图片使用selective search算法得到约2k region proposals(相当于RCNN的第一步)

(3)在特征图中找到每一个region proposals对应的特征框。在ROI池化层中将每个特征框池化到统一大小

(4)统一大小的特征框经过全连接层得到固定大小的特征向量,分别进行softmax分类(使用softmax代替了RCNN里面的多个SVM分类器)和bbox回归

Faster RCNN:

(1)提取特征:输入固定大小的图片,进过卷积层提取特征图feature maps

(2)生成region proposals: 然后经过Region Proposal Networks(RPN)生成region proposals。该层通过softmax判断anchors属于foreground或者background,再利用bounding box 回归修正anchors获得精确的proposals(候选区域)。

(3)ROI Pooling: 该层的输入是feature maps和proposals,综合这些信息后提取proposal feature maps

(4)Classification: 将Roi pooling生成的proposal feature maps分别传入softmax分类和bounding box regression获得检测物体类别和检测框最终的精确位置。

Faster RCNN的改进方法:

提取特征网络的改进:使用ResNet代替原来的VGG提取特征,效果显著

RPN升级版本:FPN

ROI升级:PS_RPI

3.YOLO模型的特点是什么?YOLO V1,V2,V3的不同有哪些?

答:

YOLO模型的特点:

YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。

优点:

(1)速度快:GPU:titan x,mAP:63.4%,数据集:VOC,检测速度:45fps;

(2)背景误检率低:YOLO在训练和推理过程中能‘看到’整张图像的整体信息,而基于region-proposal的物体检测方法(如rcnn/fast-rcnn),在检测过程中,只‘看到’候选框内的局部图像信息;

(3)泛化能力强:YOLO模型可以学到更加一般的特征,对艺术类作品中的物体检测同样适用。

缺点:

(1)识别物体位置精准性差;

(2)召回率低。

每个cell仅预测2个Bbox(YOLO V1);最终只选择IOU最高的Bbox作为物体检测输出,即每个cell最多只预测出一个物体。当物体占画面比例较小,如图像中包含畜群或鸟群时,每个格子包含多个物体,但却只能检测出其中一个。这是YOLO方法的一个缺陷。

(3)由于输出层为全连接层,因此在检测时,YOLO训练模型只支持与训练图像相同的输入分辨率。

YOLO V1:

相比于两步法,YOLO V1用网络直接回归出目标框和框置信度得分并对类别进行分类,没有提取建议区域的步骤,比两步法更快(可以将YOLO V1看作是faster rcnn中的RPN网络的高精度版)。从另一种角度理解,YOLO V1将图像分为了77共49个grid,输出的张量为77*30,分别对应每个grid,这其实就是粗暴地将划分出地grid作为建议区,然后执行两部法的第二部对其进行回归和分类。

YOLO V2

YOLO V2从各个维度对yolov1做了改进。

(1)首先批次归一化BN的出现,大大提升了模型的泛化能力和训练速度,YOLO V2将其引入。为解决YOLO V1小目标效果较差的问题,YOLO V2对中间层不同尺度的特征进行拼接,利用更细粒度的特征来提升小目标检测的性能。

(2)YOLO V2去除了全连接层,一卷到底,一是减少了参数提升了速度,二是获取更多的空间信息,三是对输入图像的尺寸不受限制,可以输入多种尺度的图像进行多尺度训练。

(3)相对于YOLO V1直接回归目标框,YOLO V2增加了anchor box,即通过k-means对数据集中的gt框进行聚类得到五个锚定框,然后预测相对于锚定框的偏移量。这种做法其实是引入了数据集的先验信息,让网络学到这些信息并在这些信息的基础上进行预测。

YOLO V3

(1)为进行非互斥的类别预测,YOLO V3使用多个独立的逻辑分类器进行类别预测,即使用sigmod代替softmax,对每一个输出计算二元交叉熵损失。

(2)为进一步提升小目标检测能力,YOLO V3在多尺度特征融合上做了改进,使用了FPN网络进行三个不同尺度特征的融合(类似于U-Net),并在上采样部分的三个尺度的特征输出口分别接检测头,三个检测头分别负责大中小三种粒度的目标的检测。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值