VGG论文笔记

最新推荐文章于 2025-04-28 17:11:55 发布

weixin_46172266

最新推荐文章于 2025-04-28 17:11:55 发布

阅读量415

点赞数 9

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_46172266/article/details/134865832

版权

vgg 的全文翻译

一 . 摘要

主要内容：

由于大量开放的数据图像库 (ImgNet) 以及好性能的计算系统（ GPU ）的存在，目前卷积神经网络在大尺度图像和视频分类取得了很大的成功。

这篇论文主要探索了 ‘[ 深度 ]’ 对神经网络性能的影响，并且验证了在卷积核大小为 3x3 的网络上，把网络层数叠加到 16-19 层会使得网络性能得到

显著的提升。

该模型的特征表示可以泛化到其他数据集，并取得了很先进的结果。（附录）

定位竞赛的冠军： 25.3%error

分类竞赛的亚军： 7.3%error

关键要素（创新点）： very deep （ up to 19 weight layers ）

3*3 conv.kernels-very small

conv.stride 1-no loss of information

ReLU 激活函数

5 个不重叠最大池化层

无 LRN 归一化

二 . 引言

ConvNets 取得成功的三大原因：

1. 大规模的公开数据集： ImageNet

2. 高性能的算力： GPU 和大规模分布式集群

3.CNN 算法

[ 分布式集群 ] ：集群是指将多台服务器集中起来一起进行同一种服务。相比一台服务器，集群的优势在于将负载均衡到每台服务器上，可以承

载更高的访问量。分布式是将工作进行业务拆分，然后由多种不同的服务器进行处理。简单来说集群是串行工作方式，虽然服务器数量多，

但是对于客户端来说，只是其中某一台服务器处理了请求；分布式相当于并行的工作方式，客户端的请求需要所有服务器共同进行处理。分布

式集群指的就是同时取集群和分布式的优点，既将业务分离了，也提高了服务器的处理能力。

改进 AlexNet ：

2013 (Zeiler & Fergus, 2013;Sermanet et al. ， 2014) 利用更小的感受野和更小的卷积步长。

另一个改进方法是在整个图像和多个尺度上密集地训练和测试网络 (Sermanet et al. ， 2014 年 ; 霍华德， 2014) 。

2.1 架构

ConvNet 的输入：固定大小的 224×224 RGB 图像，对图像的唯一预处理：从每个像素中减去在训练集上计算的 RGB 均值。图像通过一堆卷积

（ conv. ）层，我们使用感受野很小的滤波器： 3×3 （ 这是捕获左 / 右，上 / 下，中心概念的最小尺寸） 。卷积步长固定为 1 个像素。空间池化由

五个最大池化层进行，这些层在一些卷积层之后（不是所有的卷积层之后都是最大池化）。在 2×2 像素窗口上进行最大池化，步长为 2 。之后是

三个全连接（ FC ）层：前两个每个都有 4096 个通道，第三个执行 1000 维 ILSVRC 分类，因此包含 1000 个通道（一个通道对应一个类别）。最

后一层是 soft-max 层。所有配置仅是深度不同：从网络 A 中的 11 个加权层（ 8 个卷积层和 3 个 FC 层）到网络 E 中的 19 个加权层（ 16 个卷积层和 3

个 FC 层）。

神经网络分层：

数据输入层 / Input layer

卷积计算层 / CONV layer

ReLU 激励层 / ReLU layer

池化层 / Pooling layer

全连接层 / FC layer 2.2 配置

2.3 讨论 [ 非线性激活函数 ReLU] ：小卷积核 ( 如 3×3) 通过多层叠加可取得与大卷积核 ( 如 7×7) 同等规模的感受野，此外采用小卷积核同时可带来其余两个优势 : 第一，由

1*1 卷积核的引用是增加决策函数的非线性方法，

三 . 训练框架

3.1 训练： MBGD(Mini-Batch Gradient Descent, MBGD) ：小批量梯度下降：它将训练数据集分成小批量用于计算模型误差和更新模型参数。小批量梯度

下降寻求在随机梯度下降的鲁棒性和批量梯度下降的效率之间找到平衡。它是深度学习领域中最常见的梯度下降实现。

基本思想：每次更新参数时 , 使用 n 个样本 , 既不是全部 , 也不是 1. (SGD 可以看成是 n=1 的 MBGD 的一个特例 )

优点：算法的训练过程比较快，而且也要保证最终参数训练的准确率（结合了 SGD 和 BGD ）

正则化： L2 正则化； dropout ；数据增广； early stopping ； Bagging ；在样本中增加噪声

初始化参数：（解决梯度不稳定问题）

先训练 A 模型，把 A 模型的权重值赋值给后面的模型。

训练图像大小：两种方法

第一种方法：固定 S ，训练 S=256 和 S=384 模型，为了加快训练速度，把 S=256 的训练权值初始化给 S=384 ，并且使用较小的初始学习率训练。

第二种方法（多尺度训练）：多尺度训练：每个训练图像通过在一定范围内随机采样 S 进行单独缩放，【 Smin ， Smax 】，同样为了提高训练

速度，将第一种方法的 S=384 的训练结果进行初始化的预训练。

LRN ：并不会对结果有提升，只会增加内存损耗和计算时间。所以本篇论文没有用到局部响应归一化（ LRN ）

比较： Alexnet 与 vgg

第一： VGG 相比 AlexNet 的一个改进是采用连续的几个 3x3 的卷积核代替 AlexNet 中的较大卷积核（ 11x11 ， 7x7 ， 5x5 ）第二： VGGNet 的结构

非常简洁，整个网络都使用了同样大小的卷积核尺寸（ 3x3 ）和最大池化尺寸（ 2x2 ）

3.2 测试 3.3 实现细节：

Caffe （深度学习框架）：修改了这个框架，为了让多个 GPU 同时进行训练，将每一批训练图像分割成多个 GPU 批次，计算完 GPU 批处理梯度

后，求其平均值，得到全批处理的梯度。

全局平均池化：

思想：对于输出的每一个通道的特征图的所有像素计算一个平均值，经过全局平均池化之后就得到一个维度 =Cin= 类别数的特征向量，然后直

接输入到 softmax 层

作用：代替全连接层，可接受任意尺寸的图像

优点： 1 ）可以更好的将类别与最后一个卷积层的特征图对应起来（每一个通道对应一种类别，这样每一张特征图都可以看成是该类别对应的

类别置信图） 2 ）降低参数量，全局平均池化层没有参数，可防止在该层过拟合 3 ）整合了全局空间信息。

数据增强：水平翻转图像， RGB 图像转换

四 . 分类实验

数据集： ImageNet-2012 图像分类数据集

评估指标： Top-1error 和 Top-5error （主要）

4.1 单个尺度评估： Q 为固定值

结论：层数越深，误差越小； LRN 层没有效果不适用 VGG ；在相同的深度下，配置 C( 包含 3 个 1 × 1 转换层 ) 比配置 D( 整个网络使用 3 × 3 转换

层 ) 表现更差；增加额外的 1*1 卷积核（非线性）会有更好的效果。

4.2 多个尺度： Q 为范围值结论：层数越深，效果越好； S 为范围值比 S 为固定值表现更好

4.3 MULTI-CROP EVALUATION

结论： MULTI-CROP 和 dense 结合的效果最好

4.4 多模型集成

4.5 比较结论： VGG 遵循了传统的 CNN 逐层串行堆叠的结构并达到了传统结构深度和性能的极致

五 . 结论

在这项工作中，我们评估了用于大规模图像分类的非常深的卷积网络 ( 多达 19 个权重层 ) 。结果表明，表示深度对分类精度有好处，使用传统的

ConvNet 架构可以实现 ImageNet 挑战数据集的最先进的性能大幅增加深度。在附录中，我们还展示了我们的模型可以很好地推广到广泛的任

务和数据集，匹配或优于围绕较少深度图像表示构建的更复杂的识别管道。我们的研究结果再次证实了深度在视觉表现中的重要性。

附录

A. 定位

定位任务不需要考虑图像中有多少个物体，只考虑一个物体

A1.

SCR （ single-class regression ）：不定类回归：所有类别共享一个框

PCR （ per-class regression ）：特定类回归：一个类别一个框

训练：（ S=256,384 ）

预测：

第一种方案：单一变量修改，只关注模型的回归定位能力（不考虑分类问题）

第二个方案： dense application ，将整张图片喂给卷积层。

技巧： FCN 中提到的 Overfeat （没有采取这种技巧）

欧氏距离：

欧氏距离 ( Euclidean distance) 是一个通常采用的距离定义 , 它是在 m 维空间中两个点之间的真实距离。

第一种方案结论（仅为分类回归误差）：特定类回归比不定类回归效果好；微调所有层比微调非所有层效果好

第二种方案结论（分类加回归误差）： S 和 Q 都变化的情况实验效果最好 B 泛化性能

VGG 在其他数据集上的泛化能力

经典十问：

该论文试图解决什么问题？

解决大规模图像识别任务中的准确性和效率问题。

这是否是一个新问题？

不是，但是这篇论文提出的方法在当时是一种创新的解决方案，并在大规模图像识别任务中取得了非常好的成绩

这篇文章验证了一个什么科学假设？

文章介绍了一种深度学习方法，通过使用更深的网络结构和更小的卷积核来提取图像的特征，从而提高模型的准确性。同时文章还介绍一些技术：批量归一化，随

有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员 ?

按技术路线分类：可分为基于深度学习的方法和基于传统学习的方法

按应用领域分类：可分为图像分类，目标检测，图像分割等

按数据集分类：可分为 CIFAR-10 ， ImageNet ， COCO 等研究员：孙刚：中国科学院计算机视觉博士，高性能并行计算系统专家，大规模图像识别专家曾获 ImageNet2016 场景分类亚军， 2017 图像分

类冠军，并曾参与设计世界首个针对深度学习的 GPU 训练集群

论文中解决问题的关键是什么？

关键在于提出了一种有效的深度学习方法，通过使用更深的网络结构和更小的卷积核来提取图像的特征，从而提高了模型的准确性和效率，为大规模图像识别任务提

论文中的实验是如何设计的？

论文中的实验设计主要包括以下几个方面： 1.

数据集选择：该论文使用了大规模的图像识别数据集，如 ImageNet 、 CIFAR-10 和 CIFAR-100 等，这些

用于定量评估的数据集是什么？代码有没有开源？

这篇论文中使用了多个数据集进行定量评估，包括：

ImageNet ：这是一个大规模的图像分类数据集，包含了超过 1000 万张图像和 1000 个类别。

论文中实验及结果有没有很好的支持需要验证的假设？

在论文中，作者进行了大量的实验来验证他们的科学假设，并取得了非常好的结果。他们在多个大规模图像识别数据集上进行了实验，如 ImageNet 、 CIFAR-10

这篇论文到底有什么贡献？

这篇论文的主要贡献包括：

提出了一种新的深度卷积神经网络（ DCNN ）架构，通过使用更深的网络结构和更小的卷积核来提取图像的特征，从而

下一步呢？有什么工作可以继续深入？

以下是一些可以继续深入研究的方向：

探索更高效的模型架构：虽然深度卷积神经网络在图像识别任务中取得了很好的效果，但仍然存在一些可