深度学习经典模型之VGGNet

原创

已于 2024-11-08 23:43:54 修改 · 895 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2024-11-08 02:00:36 首次发布

1 VGGNet

1.1 模型介绍

VGGNet是由牛津大学视觉几何小组（Visual Geometry Group, VGG）提出的一种深层卷积网络结构，他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军（冠军由GoogLeNet以6.65%的错误率夺得）和25.32%的错误率夺得定位任务（Localization）的第一名（GoogLeNet错误率为26.44%） $^{[5]}$ ，网络名称VGGNet取自该小组名缩写。VGGNet是首批把图像分类的错误率降低到10%以内模型，同时该网络所采用的 $3×33\times3$ 卷积核的思想是后来许多模型的基础，该模型发表在2015年国际学习表征会议（International Conference On Learning Representations, ICLR）后至今被引用的次数已经超过1万4千余次。

1.2 模型结构

在这里插入图片描述

图 1 VGG16网络结构图

在原论文中的VGGNet包含了6个版本的演进，分别对应VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3和VGG19，不同的后缀数值表示不同的网络层数（VGG11-LRN表示在第一层中采用了LRN的VGG11，VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为 $1×11\times1$ ，相应的VGG16-3表示卷积核尺寸为 $3×33\times3$ ），本节介绍的VGG16为VGG16-3。图1中的VGG16体现了VGGNet的核心思路，使用 $3×33\times3$ 的卷积组合代替大尺寸的卷积（2个 $3×3卷积即可与3\times3卷积即可与$ $5×55\times5$ 卷积拥有相同的感受视野），网络参数设置如表2所示。

表2 VGG16网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	参数个数
卷积层 $C_{11}$	$224×224×3224\times224\times3$	$3×3×64/13\times3\times64/1$	$224×224×64224\times224\times64$	$(3×3×3+1)×64(3\times3\times3+1)\times64$
卷积层 $C_{12}$	$224×224×64224\times224\times64$	$3×3×64/13\times3\times64/1$	$224×224×64224\times224\times64$	$(3×3×64+1)×64(3\times3\times64+1)\times64$
下采样层 $S_{max1}$	$224×224×64224\times224\times64$	$2×2/22\times2/2$	$112×112×64112\times112\times64$	$0$
卷积层 $C_{21}$	$112×112×64112\times112\times64$	$3×3×128/13\times3\times128/1$

最低0.47元/天解锁文章