深度学习文章阅读（二）——VGG

最新推荐文章于 2024-08-20 08:52:15 发布

wjp_ctt

最新推荐文章于 2024-08-20 08:52:15 发布

阅读量345

点赞数 1

分类专栏：深度学习 cs231n 文章标签： CS231n VGG 深度学习计算机视觉图像分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjp_ctt/article/details/84927402

版权

本文深入探讨VGG网络，它使用小尺寸3x3卷积核，通过多层堆叠实现深层结构。VGG模型包含多种配置，经过训练后在ILSVRC-2012数据集上表现出色，特别是在图像分类和定位任务上。通过多尺度评估和模型融合，VGG能够有效捕捉空间信息，降低错误率。

摘要由CSDN通过智能技术生成

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE CLASSIFICATION

与之前的Alexnet和ZFnet最大的不同是，VGG使用了非常小的卷积核（3x3）。

1 模型结构

模型输入：224x224RGB图像

模型中使用的滤波器具有小的感受野：3x3。

3x3卷积核作用：我们可以发现两个堆叠的3x3（中间不含pooling操作）有着5x5大小的感受野，三个堆叠的3x3卷积核有着7x7大小的感受野。

使用三个堆叠的3x3卷积核相对7x7卷积核的优势：

我们执行了三次非线性操作，使得网络判别性更强。
参数数量减少，假设输入输出均为C个通道。堆叠的卷积核参数为 $3(3^{2}C^{2})=27C^{2}$ ,7X7卷积核参数为 $7^{2}C^{2}=49C^{2}$ 。

我们还使用了1x1的卷积核，这可以看作输入channel的线性组合。

关于1x1卷积核：提高非线性，通过卷积后的激活函数实现。特征降维和升维（本文中没有涉及）。

卷积核stride: 1。

通过空间padding操作保证了在卷积后分辨率不变。

在一系列卷积层后是三个全连接层（Fully-Connected, FC）：前两个全连接层均含有4096个通道，第三个全连接层针对1000类分类任务，因此有1000个通道。最后一层为softmax层。

每一层均使用ReLU非线性激活。

2 网络配置

VGG建立了A-E五种网络配置，区别在于1）卷积层的数目，2）是否使用1x1卷积核和3）是否使用LRN操作（Local Response Normalisation）。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。