卷积神经网络CNN通俗易懂讲解

类比筛子

想象一下,卷积神经网络就像是一个精心设计的筛子,专门用来筛选和识别图像中的各种特征。这个筛子非常特别,它能够根据需要筛选出不同大小和形状的颗粒。

  1. 初级筛子:就像一个简单的筛子可以筛选出大颗粒和小颗粒一样,卷积网络的初级卷积层负责捕捉图像中的低级特征,比如边缘、线条和颜色。这些特征就像是构成图像的“基础元素”,虽然简单,但它们是理解更复杂图像内容的起点。

  2. 进阶筛子:随着筛子的升级,我们可以使用更复杂的筛子来筛选出特定形状的颗粒,比如圆形或方形。在卷积网络中,随着卷积层的深入,中级卷积层开始捕捉更复杂的特征,如形状和纹理。这些特征帮助计算机进一步理解图像的结构和内容。

  3. 高级筛子:最终,我们可能会使用一个非常精细的筛子,只允许特定复杂形状的颗粒通过。在卷积网络的高级卷积层,这些层捕捉的是高级特征,比如物体的整体结构和复杂的纹理模式。这些高级特征是识别图像中特定物体的关键。

举例说明

  • 判断女孩是否漂亮:这就像是识别一个高维特征。我们不能直接判断,但可以从眼睛大小、身材、皮肤颜色等低级特征开始,逐步构建起对“漂亮”这一概念的理解。

  • 判断男生是否外向:这同样是一个高维特征。我们可以通过观察他的社交活动,如微信好友数量、朋友圈互动频次、聚餐次数和参加社团的个数等低级特征,来推断他的性格。

在CNN中,多个卷积层就像是一层层递进的筛网,越靠前的层越擅长捕捉那些基础的、低维的图像特征,比如边缘、线条;而随着层数的加深,网络逐渐学会了如何从这些低维特征中提炼出更高层次的、更有代表性的特征,直至能够识别出图像中的复杂对象或场景。这就像是从一块块小拼图开始,逐渐拼凑出整幅画的完整画面。

卷积核

卷积核可以是3*3,也可以是5*5,7*7,1*1,不过最常用的还是3*3的卷积核,卷积核越大,得到的特征图越小。

步长

每次移动的格子数量,一般选用1.

Padding

想象一下,你正在玩一个拼图游戏,每块拼图都代表图像中的一个特征。当你通过卷积神经网络处理图像时,就像是在玩一个不断缩小的拼图游戏。不过,如果不采取一些措施,这个拼图游戏很快就会结束,因为拼图块会变得越来越小,最终无法继续拼接。

CIFAR-10数据集示例

  • 初始状态:假设你开始时有一块28x28的拼图,每块拼图都是原始图像的一部分。
  • 第一次卷积:当你用一个3x3的卷积核进行处理时,每移动一次,拼图的尺寸就会减小。结果,经过一次卷积后,拼图变成了26x26。
  • 池化层:接着,你通过一个池化层进一步缩小拼图,尺寸变为13x13。
  • 再次卷积:然后,再用一个3x3的卷积核处理,拼图进一步缩小到11x11。
  • 再次池化:经过又一次池化,拼图尺寸变为5x5。
  • 继续卷积:经过更多的卷积操作,拼图最终缩小到3x3,甚至1x1。

问题来了:如果继续使用3x3的卷积核,你会发现拼图已经小到无法再进行处理了,因为拼图的尺寸已经小于卷积核的大小。

解决方案:填充(Padding)

为了避免这种情况,我们可以在拼图的边缘加上一圈“虚拟”的拼图块,这些块可以是空白的或者填充为零。这就是所谓的“填充”(Padding)。通过在原始图像的上下左右各添加一圈零,我们可以保持拼图的尺寸不变。

  • 填充效果:比如,加上padding=1,原始图像的尺寸从28x28变为30x30。这样,即使经过3x3的卷积核处理,拼图的尺寸仍然可以保持在28x28。

通过填充,我们不仅能够保持图像的完整性,还能确保卷积神经网络能够持续地提取和分析图像中的特征,直到达到我们所需的深度。这就像是在拼图游戏中,通过添加额外的拼图块,让我们能够继续游戏,直到最终完成整个图像的解析。

卷积的本质

在深度学习的世界里,卷积操作其实就像是在做一场原始数据与卷积核之间的“亲密对话”——它们在进行内积运算,这个过程就像是用特定的“筛子”(卷积核)去过滤和提取图像中的关键信息。有趣的是,不仅在图像处理中卷积大放异彩,在自然语言处理(NLP)的Transformer模型中,特别是其自注意力(self-Attention)机制里,也巧妙地运用了内积的概念。这里,自注意力机制就像是一个超级“评判官”,通过计算句子中每个词与其他词之间的“亲密度”(即内积),来衡量它们之间的相互贡献或重要性,仿佛是在为句子中的每个词打分,看它们各自在表达整体意思时扮演了多重要的角色。

最终的分类

当卷积神经网络(CNN)一层层深入处理图像,最终会生成一系列的特征图。这些特征图不仅是三维的(包含多个二维矩阵),还蕴含着图像从低维到高维的丰富信息。想象一下,每一层卷积核都像是一个小小的侦探,它们各自专注于捕捉图像的不同方面,而最终的特征图就是这些侦探们共同努力的成果集。

在CNN的末端,我们会将这些三维的特征图“拉平”,也就是将它们转换成一维的长向量。这个过程就像是把一叠厚厚的报告页摊开,变成一条长长的信息带。接下来,这个一维向量会被送入全连接层(也称为密集连接层),全连接层就像是一个最终的决策者,它会根据前面提取的所有特征,给出一个明确的答案——这张图片属于哪个类别。对于CIFAR-10数据集来说,这个答案就是从10个可能的类别中选择一个;而对于ImageNet这样的庞然大物,则需要从1000个类别中做出选择。

值得注意的是,全连接层的数量并不是固定的,你可以根据需要堆叠多个全连接层来增强模型的复杂度和表达能力。但无论有多少层,最终的目标都是确保输出的数量与分类的类别数精确匹配,从而准确无误地告诉世界:这张图片,它到底是谁!

  • 14
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值