深度学习理论篇之 ( 十五) -- VGG之初探深度之谜

科普知识

机器学习中一个重要的话题便是模型的泛化能力,泛化能力强的模型才是好模型,对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。

ae569fb3af68e2f1f42328eff55455c6.png

# 前言

SEP.

理论篇的上一期文章中我们分享了AlexNet网络,该网络比之前的深度学习网络又加深了一点,同时采用了大尺寸的卷积,这些较之前都是新颖的改进。今天我们继续来学习一种新的网络架构--VGG,基础部件还是卷积层,但是深度和组合方式却不太一样,最终在公开数据集也提升到了一个新的高度,同时,这个网络将深度学习又推进了一个新的步伐。

4eee0f50bb35552c34c8d4549c51f701.png

VGG网络

6c46ebfbaf751f4d169f47539c04e6a5.png

今天分享的论文是:Very Deep Convolutional Networks for Large-Scale Image Recognition,一听名字就大概知道啥意思了,翻译过来就是用于大规模图像识别的深度卷积神经网络,这个网络有多深呢?通常来说,最为公认的,包括16层和19层两个版本,最终的网络架构为:VGG16与VGG19。

论文截图:

2af6409627f8f5b34ed846333741fc7f.png

0d7ffe36c5acf7087ad33dcef64e6de1.png

1.网络结构图

ec7c72493601812fb2e6a59b3b72117c.png

论文中的网络配置图:

c315de0ec5165ff9aae05d9d1a3f3842.png

图一

网上的网络结构图:

726b61b86ab2be6e2405d284511e9783.png

图二

论文地址:https://arxiv.org/pdf/1409.1556.pdf

2.网络解析

6b0d033daaaae24df7868aab84940666.png

今天我们只分享VGG16就好,因为VGG19是差不多的架构,只是网络的深度多一点罢了。仔细观察,图一中的conv3代表的是卷积核为3x3大小的卷积操作,通道数量从3-64-128-256-512的变化,从图二中我们可以看到,原始图像经过网络之后尺寸越来越小,但是中间特征图的通道数却越来越增加,这是什么原理呢?通俗一点的解释是用通道数量的增加来弥补空间信息的减少(因为特征图越来越小)。

VGG16一共包含16层(13层卷积+3层全连接),这里需要记住一点的是通常所说的网络层数是指可以训练的层,池化一类的不算在内哦,因为它只包含了计算操作,没有训练操作哦。

输入层:224x224x3

64通道卷积层块:2层3x3x64的卷积结构,同时采用了padding操作,这样就会保持卷积操作前后特征图大小不变,输出:64x224x224。

maxpooling1: 特征图的尺寸变为原来的一半,输出:64x112x112。

128通道卷积块:2层3x3x128的卷积结构,同时采用了padding操作,这样就会保持卷积操作前后特征图大小不变,输出:128x112x112。

maxpooling2: 特征图的尺寸变为原来的一半,输出:128x56x56。

256通道卷积块:3层3x3x256的卷积结构,同时采用了padding操作,这样就会保持卷积操作前后特征图大小不变,输出:256x56x56。

maxpooling3: 特征图的尺寸变为原来的一半,输出:256x28x28。

512通道卷积块:3层3x3x256的卷积结构,同时采用了padding操作,这样就会保持卷积操作前后特征图大小不变,输出:512x28x28。

maxpooling4: 特征图的尺寸变为原来的一半,输出:512x14x14。

512通道卷积块:3层3x3x256的卷积结构,同时采用了padding操作,这样就会保持卷积操作前后特征图大小不变,输出:512x14x14。

maxpooling5: 特征图的尺寸变为原来的一半,输出:512x7x7。

全连接层1:输入:512*7*7,输出:4096。

全连接层2:输入:4096,输出:4096。

全连接层3:输入:4096,输出:1000。因为是100分类。

以上就是整个VGG16的结构解析啦,该网络主要证明了越深的网络可以学到的信息越多,也就提升了最终的分类精度,但是网络是不是越深就越好呢?或者说越深有什么限制吗?这个问题我们后期再说。此外,越深的网络所消耗的显存也越多,特别是最后两个4096的全连接层,因此这样的网络最好在1080以上的显卡跑起来才会比较好,不然速度非常慢。

8a73fe716199788b693e194200bcc658.gif

END

结语

今天分享就到这里啦,认真学习的同学们可以好好看下VGG网络原始论文哦,了解下作者设计这个网络的初衷,以及最终如何证明该网络的有效性的,下周我们继续VGG16之TensorFlow实践。

再会!

编辑:玥怡居士|审核:小圈圈居士

24dfa4a21a46b5c24098c369b7416613.png

IT进阶之旅

往期回顾

深度学习理论篇之 ( 十四) -- AlexNet之更上一楼

深度学习理论篇之 ( 十三) -- LetNet-5之风起云涌

深度学习理论篇之 ( 十二) -- 降维之池化

过去的一年,我们都做了啥:

【年终总结】辞旧迎新,2020,我们再出发

【年终总结】2021,辞旧迎新再出发

7eaa92d7557a6b74f432dbb1287d1192.gif

点个"赞"再走吧~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度学习是一种机器学习的分支,其目标是通过模仿人脑神经网络的工作方式来模拟和理解人类的智能行为。TensorFlow是一个强大的深度学习框架,它提供了丰富的工具和函数来构建和训练神经网络模型。 在图像领域中,一项有趣的实验是图像风格迁移。这是一种技术,将一张图像的风格应用于另一张图像,创造出一幅以第一幅图像风格为基础的新图像。其中VGG-19是一种深度卷积神经网络模型,被广泛用于图像识别和图像风格迁移任务。 图像风格迁移实验基于VGG-19模型的步骤如下:首先,我们需要将待迁移的风格图像和内容图像加载到模型中。然后,通过计算内容图像和目标图像之间的差异来定义一个损失函数。该损失函数包括内容损失和风格损失两部分,内容损失用于保留内容图像的特征,风格损失用于学习风格图像的特征。 接下来,我们使用梯度下降的优化算法来最小化损失函数,从而生成目标图像。在每次迭代中,我们根据当前生成的图像的梯度来更新输入图像。 在实验过程中,我们可以观察到生成图像逐渐采用了风格图像的特征,并保留了内容图像的主要结构。通过调整不同的参数和迭代次数,我们可以获得不同风格和质量的图像。 综上所述,VGG-19模型的图像风格迁移实验利用了深度学习和TensorFlow的强大功能。它为我们提供了一种有趣的方式来创造具有不同风格的图像,并有助于我们更深入地理解和应用深度学习的原理和技术。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值