卷积神经网络CNN通俗易懂讲解

最新推荐文章于 2024-08-31 23:13:29 发布

巧借东风gt

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量445

点赞数 14

文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/weixin_68485543/article/details/140519674

版权

类比筛子

想象一下，卷积神经网络就像是一个精心设计的筛子，专门用来筛选和识别图像中的各种特征。这个筛子非常特别，它能够根据需要筛选出不同大小和形状的颗粒。

初级筛子：就像一个简单的筛子可以筛选出大颗粒和小颗粒一样，卷积网络的初级卷积层负责捕捉图像中的低级特征，比如边缘、线条和颜色。这些特征就像是构成图像的“基础元素”，虽然简单，但它们是理解更复杂图像内容的起点。
进阶筛子：随着筛子的升级，我们可以使用更复杂的筛子来筛选出特定形状的颗粒，比如圆形或方形。在卷积网络中，随着卷积层的深入，中级卷积层开始捕捉更复杂的特征，如形状和纹理。这些特征帮助计算机进一步理解图像的结构和内容。
高级筛子：最终，我们可能会使用一个非常精细的筛子，只允许特定复杂形状的颗粒通过。在卷积网络的高级卷积层，这些层捕捉的是高级特征，比如物体的整体结构和复杂的纹理模式。这些高级特征是识别图像中特定物体的关键。

举例说明

判断女孩是否漂亮：这就像是识别一个高维特征。我们不能直接判断，但可以从眼睛大小、身材、皮肤颜色等低级特征开始，逐步构建起对“漂亮”这一概念的理解。
判断男生是否外向：这同样是一个高维特征。我们可以通过观察他的社交活动，如微信好友数量、朋友圈互动频次、聚餐次数和参加社团的个数等低级特征，来推断他的性格。

在CNN中，多个卷积层就像是一层层递进的筛网，越靠前的层越擅长捕捉那些基础的、低维的图像特征，比如边缘、线条；而随着层数的加深，网络逐渐学会了如何从这些低维特征中提炼出更高层次的、更有代表性的特征，直至能够识别出图像中的复杂对象或场景。这就像是从一块块小拼图开始，逐渐拼凑出整幅画的完整画面。

卷积核

卷积核可以是3*3，也可以是5*5,7*7，1*1，不过最常用的还是3*3的卷积核，卷积核越大，得到的特征图越小。

步长

每次移动的格子数量，一般选用1.

Padding

想象一下，你正在玩一个拼图游戏，每块拼图都代表图像中的一个特征。当你通过卷积神经网络处理图像时，就像是在玩一个不断缩小的拼图游戏。不过，如果不采取一些措施，这个拼图游戏很快就会结束，因为拼图块会变得越来越小，最终无法继续拼接。

CIFAR-10数据集示例：

初始状态：假设你开始时有一块28x28的拼图，每块拼图都是原始图像的一部分。
第一次卷积：当你用一个3x3的卷积核进行处理时，每移动一次，拼图的尺寸就会减小。结果，经过一次卷积后，拼图变成了26x26。
池化层：接着，你通过一个池化层进一步缩小拼图，尺寸变为13x13。
再次卷积：然后，再用一个3x3的卷积核处理，拼图进一步缩小到11x11。
再次池化：经过又一次池化，拼图尺寸变为5x5。
继续卷积：经过更多的卷积操作，拼图最终缩小到3x3，甚至1x1。

问题来了：如果继续使用3x3的卷积核，你会发现拼图已经小到无法再进行处理了，因为拼图的尺寸已经小于卷积核的大小。

解决方案：填充（Padding）：

为了避免这种情况，我们可以在拼图的边缘加上一圈“虚拟”的拼图块，这些块可以是空白的或者填充为零。这就是所谓的“填充”（Padding）。通过在原始图像的上下左右各添加一圈零，我们可以保持拼图的尺寸不变。

填充效果：比如，加上padding=1，原始图像的尺寸从28x28变为30x30。这样，即使经过3x3的卷积核处理，拼图的尺寸仍然可以保持在28x28。

通过填充，我们不仅能够保持图像的完整性，还能确保卷积神经网络能够持续地提取和分析图像中的特征，直到达到我们所需的深度。这就像是在拼图游戏中，通过添加额外的拼图块，让我们能够继续游戏，直到最终完成整个图像的解析。

卷积的本质

在深度学习的世界里，卷积操作其实就像是在做一场原始数据与卷积核之间的“亲密对话”——它们在进行内积运算，这个过程就像是用特定的“筛子”（卷积核）去过滤和提取图像中的关键信息。有趣的是，不仅在图像处理中卷积大放异彩，在自然语言处理（NLP）的Transformer模型中，特别是其自注意力（self-Attention）机制里，也巧妙地运用了内积的概念。这里，自注意力机制就像是一个超级“评判官”，通过计算句子中每个词与其他词之间的“亲密度”（即内积），来衡量它们之间的相互贡献或重要性，仿佛是在为句子中的每个词打分，看它们各自在表达整体意思时扮演了多重要的角色。

最终的分类

当卷积神经网络（CNN）一层层深入处理图像，最终会生成一系列的特征图。这些特征图不仅是三维的（包含多个二维矩阵），还蕴含着图像从低维到高维的丰富信息。想象一下，每一层卷积核都像是一个小小的侦探，它们各自专注于捕捉图像的不同方面，而最终的特征图就是这些侦探们共同努力的成果集。

在CNN的末端，我们会将这些三维的特征图“拉平”，也就是将它们转换成一维的长向量。这个过程就像是把一叠厚厚的报告页摊开，变成一条长长的信息带。接下来，这个一维向量会被送入全连接层（也称为密集连接层），全连接层就像是一个最终的决策者，它会根据前面提取的所有特征，给出一个明确的答案——这张图片属于哪个类别。对于CIFAR-10数据集来说，这个答案就是从10个可能的类别中选择一个；而对于ImageNet这样的庞然大物，则需要从1000个类别中做出选择。

值得注意的是，全连接层的数量并不是固定的，你可以根据需要堆叠多个全连接层来增强模型的复杂度和表达能力。但无论有多少层，最终的目标都是确保输出的数量与分类的类别数精确匹配，从而准确无误地告诉世界：这张图片，它到底是谁！

巧借东风gt

关注

14
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
卷积神经网络CNN通俗易懂讲解

**卷积神经网络：图像的奥秘解码者**在数字世界的宏伟舞台上，卷积神经网络以其超凡的洞察力，揭开了图像识别的神秘面纱。它不仅是一个筛子，更是一个探索者，通过层层筛选，揭示了图像最深处的奥秘。
复制链接

扫一扫