经典网络VGG16

1、经典网络VGG16 basic

       VGG是由Simonyan 和Zisserman在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型,其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。

     针对VGG16进行具体分析发现,VGG16共包含:

  • 13个卷积层(Convolutional Layer),分别用conv3-XXX表示
  • 3个全连接层(Fully connected Layer),分别用FC-XXXX表示
  • 5个池化层(Pool layer),分别用maxpool表示

       其中,卷积层和全连接层具有权重系数,因此也被称为权重层,总数目为13+3=16,这即是VGG16中16的来源。(池化层不涉及权重,因此不属于权重层,不被计数)。

      conv3-64的全称是convolution kernel_size=3, the number of kernel=64,该层有64个3*3的卷积和实施卷积操作。每一个卷积层都对输入图像进行了padding操作,padding的尺寸需要正好保证输出图像的尺寸与输入图像相同。

      FC4096全称是Fully Connected 4096,是输出层连接4096个神经元的全连接层。

 2、针对VGG16具体解释

      1)block1解释

       VGG16的输入图像为224*224*3,第一个conv3-64的意思是由64个3*3*3(3代表通道数)的卷积核去卷积输入图像,1个3*3*3的卷积核与图像224*224*3卷积,再通过padding后得到1个224*224大小的矩阵图像,那么64个3*3*3的卷积核去卷积输出的结果为224*224*64的矩阵图像组。针对输入224*224*64的矩阵图像组,第二个conv3-64的含义是由64个3*3*64的矩阵卷积核组去卷积矩阵图像组,由于1个224*224*64的矩阵图像组和1个3*3*64的矩阵卷积核组得到1个224*224大小的矩阵图像,故block1的最终输出结果就是224*224*64。

       block1中的param分别为(第一个conv3-64:(3*3*3)*64;第二个conv3-64:(3*3*64)*64)

      2)经过block1后的maxpooling1的输出层数据为为112*112*64

      3)block2解释

       block2的输入数据是112*112*64,conv3-128代表的意思是由128个3*3*64(64代表通道数)的卷积核去卷积输入数据,与之前讲述相同,此时得到112*112*128矩阵图像组。

       block2中的param分别是(第一个conv3-128:(3*3*64)*128;第二个conv3-128:(3*3*128)*128)

     4)经过block2后的maxpooling2的输出层数据为56*56*128

     5)block3解释

      block3的输入数据是56*56*128,conv3-256代表的意思是由256个3*3*128(128代表通道数)的卷积核去卷积输入数据,与之前讲述相同,此时得到56*56*256矩阵图像组。

      block3的param分别是(第一个conv3-256:(3*3*128)*256;第二个conv3-256:(3*3*256)*256;第二个conv3-256:(3*3*256)*256)

      6)经过block3后的maxpooling3的输出层数据为28*28*256   

      7)block4、block5以此类推

      8)block5后maxpooling5的输出层数据为7*7*512

      9)FC-4096层的输入数据为7*7*512,全连接层有4096个神经元。

           FC-4096中的param为7*7*512*4096

3、VGG16的参数

图中蓝色是计算权重参数数量的部分;红色是计算所需存储容量的部分。

VGG16具有如此之大的参数数目,可以预期它具有很高的拟合能力;但同时缺点也很明显:

  • 即训练时间过长,调参难度大。
  • 需要的存储容量大,不利于部署。例如存储VGG16权重值文件的大小为500多MB,不利于安装到嵌入式系统中。

4、VGG16的具体结构

       首先需要解释为什么把一个224*224*3的3通道的RGB图像->变成了224*224*64有着64通道的图像组合?

       答:这里是拿64组3*3*3的卷积核去卷积这一个RGB图像。一组3*3*3的卷积核去卷积一组224*224*3的图像(27个数求和,然后扫过去),借助padding后,得到的是一个224*224的图像,那么64组卷积和就得到64组224*224的图像,即224*224*64这一个64通道的图像组合。

 

5、关于VGG16网络的迁移学习

        vgg16对应的供keras使用的模型人家已经帮我们训练好,我们将学习好的 VGG16 的权重迁移(transfer)到自己的卷积神经网络上作为网络的初始权重,这样我们自己的网络不用从头开始从大量的数据里面训练,从而提高训练速度。这里的迁移就是平时所说的迁移学习。

 

 

参考文章:

【1】http://deanhan.com/2018/07/26/vgg16/

【2】https://www.cnblogs.com/lfri/p/10493408.html

  • 7
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值