吴恩达—卷积神经网络（CNN）学习笔记（二）

西_西_

已于 2024-06-11 09:40:23 修改

阅读量301

点赞数 6

分类专栏：深度学习文章标签： cnn 学习笔记

于 2023-12-15 20:23:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47414581/article/details/135024611

版权

深度学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

池化层（Pooling Layers）

在理解池化层的作用之前，我们先来看看池化层是如何工作的。

1.最大池化（Max pooling）

以最大池化为例，我们将一个4×4的原图像分割为4个2×2的子区域，每个子区域中提取最大值即可。

这个过程可以看作一个2×2的过滤器以2为步幅在原图像上滑动，所以这样的最大池化的超参数就定义为f=2，s=2，之前的公式 [�+2�−��+1] 依然可以用来计算池化输出的大小，不过要注意的是，在池化中通常不设置padding值，即p=0。

多通道图像的池化也很容易想象，各通道分别做池化，再将结果叠放在一起。所以池化的输入和输出的通道数是一致的。

2.平均池化（Average Pooling）

与最大池化相比，我认为除了输出取子区域内平均值而非最大值以外，没有什么不同，就不再赘述了。

与卷积过程中可以选取不同的卷积核参数相比，池化是一种固定的运算，在确定了超参数后它就不存在继续调整或是训练的需要了。

完整卷积神经网络典型案例

下图是吴教授在课程中举的一个CNN典型案例，其功能是识别32×32的RGB图像中的手写体数字。随网络深度增加，卷积和池化交替进行，其中卷积缩小了图像长宽、增加了图像通道数，池化只缩小图像长宽。相邻的CONV1和POOL1共同组成神经网络的一层，即Layer1，Layer2同样由一个卷积层和池化层组成。Layer3、Layer4是全连接层，分别记为FC3、FC4。

注意图中红色虚线框内的部分，这里表示图像信息由三维展开为一维，但是本质上没有进行任何运算，只是为了将三维图像信息输入其后的全连接层。

图中明确标注的数字（神经网络的层数，卷积核或池化过滤器的大小f、步幅s、个数，全连接层的神经元个数）都是神经网络的超参数，也就是在训练开始前必须人工确定的参数。确定这些超参数最有效的方法是广泛参考别人的案例。

*关于超参数的概念在吴恩达深度学习课程第一课中有详细讲述，如果不清楚这个概念还是需要先补习一下的。

【中英字幕】吴恩达深度学习课程第一课 — 神经网络与深度学习_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliwww.bilibili.com/video/BV164411m79z?p=42编辑

将这个典型案例中每一层的激活值规模（可以理解为数据的个数）和待训练参数整理成表格：

由表中可以总结出以下经验性规律：

对于有效的卷积神经网络，其激活值规模通常随深度增加而逐渐减小，且减小速度不宜过快；
待训练参数集中在全连接层，卷积层中待训练参数较少，而池化层中没有待训练参数（这也就是为什么我在上面写到“池化是一种固定的运算”）。

为什么使用卷积？

为了直观理解卷积网络相对于全连接网络的优势，我们思考这样一种对比：

一个32×32×3的图像经过如下卷积层得到一个28×28×6的图像，在这个卷积层中，我们需要训练的参数有3×5×5×6=450个（如果加上偏置参数就是456个）；

然而，如果要用全连接网络实现同样规模的输入输出维度，则需要训练3072×4704即大约1400多万个参数（这里的参数仅包括权重w而不包括偏置b）。

可以看到，即便输入图像还非常小（分辨率32×32），卷积网络和全连接网络在待训练参数规模上的差异已经非常可观了。当处理分辨率更高的图像时，这种差距将会越来越大。

造成这种差距的原因：

参数共享：具有某种特征检测功能的卷积核（例如竖直边缘检测）如果适用于图像的某个区域，那么它也很可能适用于图像的其他区域；
稀疏连接：与全连接网络不同，卷积网络输出的某个参数并不与所有输入参数直接相关。例如下图中，输出矩阵中绿色框和蓝色框中的单个参数只分别于输入矩阵中对应颜色的九个参数直接相关。

卷积神经网络利用以上两种特性大大减少了待训练参数的规模，让我们可以用更小的训练集来训练它。

引自吴恩达—卷积神经网络（CNN）学习笔记（二） - 知乎 (zhihu.com)

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
吴恩达—卷积神经网络（CNN）学习笔记（二）

这个过程可以看作一个2×2的过滤器以2为步幅在原图像上滑动，所以这样的最大池化的超参数就定义为f=2，s=2，之前的公式 [�+2�−��+1] 依然可以用来计算池化输出的大小，不过要注意的是，在池化中通常不设置padding值，即p=0。一个32×32×3的图像经过如下卷积层得到一个28×28×6的图像，在这个卷积层中，我们需要训练的参数有3×5×5×6=4。以最大池化为例，我们将一个4×4的原图像分割为4个2×2的子区域，每个子区域中提取最大值即可。，只是为了将三维图像信息输入其后的全连接层。
复制链接

扫一扫

专栏目录

西_西_ CSDN认证博客专家 CSDN认证企业博客

码龄4年

38: 原创

40万+: 周排名

11万+: 总排名

2万+: 访问

: 等级

851: 积分

360: 粉丝

465: 获赞

11: 评论

475: 收藏

私信

关注

热门文章

分类专栏

最新评论

LUNA16数据集
一个来路不明的吃货: 有完整肺结节预处理的代码吗，急需
CT医学图像的预处理（重采样）
Jack.Du: 请问博主
CT医学图像的预处理（重采样）
Jack.Du: 博主是哪个专业的啊？
将多个文件夹中的图像合并到一个文件中
CSDN-Ada助手: 恭喜您写了这么有用的一篇博客！将多个文件夹中的图像合并到一个文件中确实是一个非常实用的技巧。希望您能继续分享更多类似的技术经验，或许下一步可以考虑介绍如何在合并图像的同时进行一些简单的编辑和处理，这样会更加丰富您的博客内容。期待您的下一篇作品！
CT检查的分类
CSDN-Ada助手: 恭喜您第20篇博客文章！您对CT检查的分类进行了详细的介绍，让读者对这一主题有了更深入的了解。希望您可以继续坚持创作，可以尝试结合临床案例或者最新的研究成果，为读者提供更多实用的信息。期待您的下一篇文章！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。