深度学习经典模型之VGGNet

1 VGGNet

1.1 模型介绍

​ VGGNet是由牛津大学视觉几何小组(Visual Geometry Group, VGG)提出的一种深层卷积网络结构,他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军(冠军由GoogLeNet以6.65%的错误率夺得)和25.32%的错误率夺得定位任务(Localization)的第一名(GoogLeNet错误率为26.44%)[5]^{[5]}[5],网络名称VGGNet取自该小组名缩写。VGGNet是首批把图像分类的错误率降低到10%以内模型,同时该网络所采用的3×33\times33×3卷积核的思想是后来许多模型的基础,该模型发表在2015年国际学习表征会议(International Conference On Learning Representations, ICLR)后至今被引用的次数已经超过1万4千余次。

1.2 模型结构

在这里插入图片描述

​ 图 1 VGG16网络结构图

​ 在原论文中的VGGNet包含了6个版本的演进,分别对应VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3和VGG19,不同的后缀数值表示不同的网络层数(VGG11-LRN表示在第一层中采用了LRN的VGG11,VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为1×11\times11×1,相应的VGG16-3表示卷积核尺寸为3×33\times33×3),本节介绍的VGG16为VGG16-3。图1中的VGG16体现了VGGNet的核心思路,使用3×33\times33×3的卷积组合代替大尺寸的卷积(2个3×3卷积即可与3\times3卷积即可与3×3卷积即可与5×55\times55×5卷积拥有相同的感受视野),网络参数设置如表2所示。

​ 表2 VGG16网络参数配置

网络层 输入尺寸 核尺寸 输出尺寸 参数个数
卷积层C11C_{11}C11 224×224×3224\times224\times3224×224×3 3×3×64/13\times3\times64/13×3×64/1 224×224×64224\times224\times64224×224×64 (3×3×3+1)×64(3\times3\times3+1)\times64(3×3×3+1)×64
卷积层C12C_{12}C12 224×224×64224\times224\times64224×224×64 3×3×64/13\times3\times64/13×3×64/1 224×224×64224\times224\times64224×224×64 (3×3×64+1)×64(3\times3\times64+1)\times64(3×3×64+1)×64
下采样层Smax1S_{max1}Smax1 224×224×64224\times224\times64224×224×64 2×2/22\times2/22×2/2 112×112×64112\times112\times64112×112×64 000
卷积层C21C_{21}C21 112×112×64112\times112\times64112×112×64 3×3×128/13\times3\times128/13×3
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值