深度学习第六次课后题

最新推荐文章于 2023-03-09 16:24:57 发布

凉夏初晨

最新推荐文章于 2023-03-09 16:24:57 发布

阅读量393

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/zhangxl123liang/article/details/124305967

版权

深度学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1.深层网络的层次达到一定深度后会产生什么问题？Resnet是如何解决这个问题的？

答：网络层数加深后，网络优化难度加大，性能变差，出现网络模型退化问题。

解决方案：通过浅层次网络模型获得特征直接复制到更深的网络。通过shot cut路径，直接把输入传到输出端，强行作为单位映射部分作为学习中的另一部分。

2.Faster RCNN在RCNN，Fast RCNN的基础上进行了哪些改进？

答：

RCNN：

（1）输入图像。

（2）利用selective search对图像生成1K~2K的候选区域（region proposal），这个量比传统的算法要少得多。具体一点，选出region proposal的方法是运行图像分割算法，对于分割算法跑出来的块，把它作为可能的region proposal输出。

（3）提取特征：将region proposal resize为统一大小，送进去掉了softmax的CNN，对每个候region proposal提取特征。

（4）对区域进行分类：对从CNN output出来的特征向量送进每一类的SVM分类, 如果我有十个类别，那么每个region proposal要跑10个SVM，得到类别。这里为什么要用SVM而不是softmax，有一种说法是为了解决样本不均衡的问题，另外是早期神经网络还不如现在这样发达，当时SVM还是比较领先的分类器。

（5）修正：对CNN output的特征向量（这个特征向量和第4步中拿去喂给SVM的是一个向量）做回归（左上角右下角的四个坐标），修正region proposal的位置。

Fast RCNN:

（1）将任意size的图片输入CNN，得到特征图。在RCNN中，先生成region proposals再做卷积，相当于做了多次卷积，浪费时间。

（2）对原始图片使用selective search算法得到约2k region proposals（相当于RCNN的第一步）

（3）在特征图中找到每一个region proposals对应的特征框。在ROI池化层中将每个特征框池化到统一大小

（4）统一大小的特征框经过全连接层得到固定大小的特征向量，分别进行softmax分类（使用softmax代替了RCNN里面的多个SVM分类器）和bbox回归

Faster RCNN：

（1）提取特征：输入固定大小的图片，进过卷积层提取特征图feature maps

（2）生成region proposals: 然后经过Region Proposal Networks(RPN)生成region proposals。该层通过softmax判断anchors属于foreground或者background，再利用bounding box 回归修正anchors获得精确的proposals（候选区域）。

（3）ROI Pooling: 该层的输入是feature maps和proposals，综合这些信息后提取proposal feature maps

（4）Classification: 将Roi pooling生成的proposal feature maps分别传入softmax分类和bounding box regression获得检测物体类别和检测框最终的精确位置。

Faster RCNN的改进方法：

提取特征网络的改进：使用ResNet代替原来的VGG提取特征，效果显著

RPN升级版本：FPN

ROI升级：PS_RPI

3.YOLO模型的特点是什么？YOLO V1，V2，V3的不同有哪些？

答：

YOLO模型的特点：

YOLO将物体检测作为一个回归问题进行求解，输入图像经过一次inference，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn/fast rcnn/faster rcnn将检测结果分为两部分求解：物体类别（分类问题），物体位置即bounding box（回归问题）。

优点：

（1）速度快：GPU：titan x，mAP：63.4%，数据集：VOC，检测速度：45fps；

（2）背景误检率低：YOLO在训练和推理过程中能‘看到’整张图像的整体信息，而基于region-proposal的物体检测方法（如rcnn/fast-rcnn），在检测过程中，只‘看到’候选框内的局部图像信息；

（3）泛化能力强：YOLO模型可以学到更加一般的特征，对艺术类作品中的物体检测同样适用。

缺点：

（1）识别物体位置精准性差；

（2）召回率低。

每个cell仅预测2个Bbox（YOLO V1）;最终只选择IOU最高的Bbox作为物体检测输出，即每个cell最多只预测出一个物体。当物体占画面比例较小，如图像中包含畜群或鸟群时，每个格子包含多个物体，但却只能检测出其中一个。这是YOLO方法的一个缺陷。

（3）由于输出层为全连接层，因此在检测时，YOLO训练模型只支持与训练图像相同的输入分辨率。

YOLO V1：

相比于两步法，YOLO V1用网络直接回归出目标框和框置信度得分并对类别进行分类，没有提取建议区域的步骤，比两步法更快（可以将YOLO V1看作是faster rcnn中的RPN网络的高精度版）。从另一种角度理解，YOLO V1将图像分为了77共49个grid，输出的张量为77*30，分别对应每个grid，这其实就是粗暴地将划分出地grid作为建议区，然后执行两部法的第二部对其进行回归和分类。

YOLO V2

YOLO V2从各个维度对yolov1做了改进。

（1）首先批次归一化BN的出现，大大提升了模型的泛化能力和训练速度，YOLO V2将其引入。为解决YOLO V1小目标效果较差的问题，YOLO V2对中间层不同尺度的特征进行拼接，利用更细粒度的特征来提升小目标检测的性能。

（2）YOLO V2去除了全连接层，一卷到底，一是减少了参数提升了速度，二是获取更多的空间信息，三是对输入图像的尺寸不受限制，可以输入多种尺度的图像进行多尺度训练。

（3）相对于YOLO V1直接回归目标框，YOLO V2增加了anchor box，即通过k-means对数据集中的gt框进行聚类得到五个锚定框，然后预测相对于锚定框的偏移量。这种做法其实是引入了数据集的先验信息，让网络学到这些信息并在这些信息的基础上进行预测。

YOLO V3

（1）为进行非互斥的类别预测，YOLO V3使用多个独立的逻辑分类器进行类别预测，即使用sigmod代替softmax，对每一个输出计算二元交叉熵损失。

（2）为进一步提升小目标检测能力，YOLO V3在多尺度特征融合上做了改进，使用了FPN网络进行三个不同尺度特征的融合（类似于U-Net），并在上采样部分的三个尺度的特征输出口分别接检测头，三个检测头分别负责大中小三种粒度的目标的检测。

凉夏初晨

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习第六次课后题

1.深层网络的层次达到一定深度后会产生什么问题？Resnet是如何解决这个问题的？答：网络层数加深后，网络优化难度加大，性能变差，出现网络模型退化问题。解决方案：通过浅层次网络模型获得特征直接复制到更深的网络。通过shot cut路径，直接把输入传到输出端，强行作为单位映射部分作为学习中的另一部分。2.Faster RCNN在RCNN，Fast RCNN的基础上进行了哪些改进？答：RCNN：（1）输入图像。（2）利用selective search对图像生成1K~2K的候选区域（
复制链接

扫一扫

专栏目录