VGG论文导读

本文详细介绍了VGG网络结构及其在图像识别任务中的应用,探讨了卷积网络深度对分类准确率的影响。VGG通过堆叠小卷积核增加网络深度,减少了参数量并提升了模型性能。训练技巧包括尺度扰动和数据增强,测试阶段采用多尺度和Dense/Multi-crop策略以提高精度。VGG在ILSVRC-2014中取得佳绩,其开源模型对深度学习研究有重要贡献。
摘要由CSDN通过智能技术生成

一、论文研究背景、成果及意义
https://download.pytorch.org/whl/torch_stable.html(pytorch相应的轮子)
相关研究
1、AlexNet:借鉴卷积模型结构
2、 ZFNet: 借鉴其采用小卷积核思想
3、 OverFeat:借鉴全卷积,实现高效的稠密(Dense)预测
4、 NIN:尝试11卷积
研究意义
1、开启小卷积核时代:3
3卷积核成为主流模型
2、作为各类图像任务的骨干网络结构:分类、定位、检测、分割一系列图像任务大都有VGG为骨干 网络的尝试
二、摘要
1、本文主题:在大规模图像识别任务中,探究卷积网络深度对分类准确率的影响
2、主要工作:研究33卷积核增加网络模型深度的卷积网络的识别性能,同时将模型加深到16-19层
3、 本文成绩:VGG在ILSVRC-2014获得了定位任务冠军和分类任务亚军
4、 泛化能力:VGG不仅在ILSVRC获得好成绩,在别的数据集中表现依旧优异
5.、开源贡献:开源两个最优模型,以加速计算机视觉中深度特征表示的进一步研究
三、VGG结构
VGG11至VGG19演变过程
在这里插入图片描述
共性:
1、 5个maxpool
2、maxpool后,特征图通道数翻倍直至512
3、3个FC层进行分类输出
4、 maxpool之间采用多个卷积层堆叠,对特征 进行提取和抽象
演变过程:
A:11层卷积
A-LRN:基于A增加一个LRN
B: 第1,2个block中增加1个卷积3
3卷积
C: 第3, 4, 5个block分别增加1个11卷积, 表明增加非线性有益于指标提升
D:第3, 4, 5个block的1
1卷积替换为33,
E:第3, 4, 5个block再分别增加1个3
3卷积,越靠后使用非线性激活函数
参数量的对比
在这里插入图片描述

VGG16模型结构
在这里插入图片描述

参数计算
在这里插入图片描述
batchsize不能设置太大,一张图片要占100多兆

VGG特点:堆叠3*3卷积核
1、增大感受野:2个33堆叠等价于1个55 ,3个33堆叠等价于1个77
在这里插入图片描述

2、 增加非线性激活函数,增加特征抽象能力
3、减少训练参数
举例:假设输入通道均为C个通道
一个77卷积核所需参数量:77CC=49C^2
三个33卷积核所需参数量:3(33CC)=27C^2
参数减少比(49-27)/49~=44%
4、可看成7
7卷积核的正则化,强迫77分解为33
四、训练技巧及测试技巧
训练技巧:尺度扰动(Scale jittering)
数据增强
方法一:针对位置
训练阶段:
① 按比例缩放图片至最小边为S(经过等比例缩放的最短边)
② 随机位置裁剪出224*224区域
③ 随机进行水平翻转
方法二:针对颜色
修改RGB通道的像素值,实现颜色扰动
S设置方法:
1、 固定值:固定为256,或384
2、 随机值:每个batch的S在[256, 512],实现尺度扰动
预训练模型
深度神经网络对初始化敏感,深度卷积网络初始化可以加速模型的训练,反之容易梯度消失、爆炸
1、 深度加深时,用浅层网络初始化 B,C,D,E用A模型初始化
2、 Multi-scale训练时,用小尺度初始化
S=384时,用S=256模型初始化 (大尺度用小尺度初始化)
S=[256, 512]时,用S=384模型初 始化 (多尺度用单尺度初始化)

3、Xavier初始化
测试技巧:
多尺度测试:得到不同尺度的图片
图片等比例缩放至最短边为Q 设置三个Q,对图片进行预测,取平均
方法1 当S为固定值时:
Q = [S-32, S, S+32]
方法2 当S为随机值时:
Q = (S_min, 0.5*(S_min + S_max), S_max)
在这里插入图片描述

1、Dense测试
a、将FC层转换为卷积操作,变为全卷积网络,实现任意尺寸图片输入
经过全卷积网络得到 NN1000 特征图
b、在通道维度上求和(sum pool)计算平均值, 得到1*1000 输出向量
在这里插入图片描述

2、Multi-crop测试
借鉴AlexNet与GoogLeNet,对图片进行Multi-crop,裁剪大小为224224,并水平翻转 。1张图,缩放至3种尺寸,然后每种尺寸裁剪出50张图片;50 = 552,有三种尺寸的图片,350=150张。
在这里插入图片描述
总结:
在这里插入图片描述
五、论文总结
超参数的设置
bs=256
m=0.9
L2=5e-4
lr=0.01(准确率不下降时,lr下降)
max_epoch=74
实验结果及分析
1、Single scale evaluation
S为固定值时:Q = S, S为随机值时:Q = 0.5(S_min + S_max)
结论:
1) 误差随深度加深而降低,当模型到 达19层时,误差饱和,不再下降
2)增加1
1有助于性能提升
3) 训练时加入尺度扰动,有助于性能 提升
4) B模型中,33替换为55卷积,top1 下降1
在这里插入图片描述
2. Multi scale evaluation
方法1 :
Q = [S-32, S, S+32]
方法2:
Q = (S_min, 0.5*(S_min + S_max), S_max)
结论 :
1 ). 测 试 时采 用 S c a l e j i t t e r i n g 有 助 于 性 能提 升
在这里插入图片描述
3. Multi crop evaluation
方法: 等步长的滑动224224的窗口进行裁剪,在尺 度为Q的图像上裁剪55=25张图片,然后再进 行水平翻转,得到50张图片,结合三个Q值, 一张图片得到150张图片输入到模型中
结论 :
1 )m u l i t - c r o p 优 于 d e n s e
2 ) m u l t i - c r o p 结 合 d e n s e , 可 形 成 互 补 , 达 到 最 优 结 果
在这里插入图片描述
论文总结
关键点&创新点
堆叠小卷积核,加深网络
• 训练阶段,尺度扰动
• 测试阶段,多尺度及Dense+Multi crop
启发点
1)采用小卷积核,获得高精度
2)采用多尺度及稠密预测,获得高精度
3)1*1卷积可认为是线性变换,同时增加非线性层
4)填充大小准则:保持卷积后特征图分辨率不变
5)LRN对精度无提升
6)Xavier初始化可达较好效果
7)S远大于224,图片可能仅包含物体的一部分
8) 大尺度模型采用小尺度模型初始化,可加快收敛
9) 物体尺寸不一,因此采用多尺度训练,可以提高精度
10) multi crop 存在重复计算,因而低效
11) multi crop可看成dense的补充,因为它们边界处理有所不同
12) 小而深的卷积网络优于大而浅的卷积网络
13) 尺度扰动对训练和测试阶段有帮助

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值