西瓜书第五章拓展学习

卷积定义
从拉丁语convolvere来看,“to convolve”意味着一起滚动。 出于数学目的,卷积是测量两个函数重叠程度的积分。 将卷积视为通过将两个函数相乘来混合两个函数的方法。

卷积网络将图像视为很多层卷; 比如三维物体,而不是仅通过宽度和高度来测量的平面画布。 这是因为数字彩色图像具有红 - 蓝 - 绿(RGB)编码,混合这三种颜色以产生人类感知的色谱。 卷积网络将这些图像输入为三个独立的颜色通道,一个层叠在另一个之上。

因此,卷积网络接收一个普通彩色图像,就像一个矩形盒子,其宽度和高度由沿着这些维度的像素数量来测量,深度为三层,RGB中每个字母对应一层。这些深度层被称为通道。

当图像通过卷积网络时,我们将根据输入卷和输出卷来描述它们,在数学上将它们表示为这种形式的多维矩阵:30x30x3。 从一层到另一层,它们的尺寸会发生变化,原因将在下面解释。

你需要密切关注图像卷层每个维度的精确度量,因为它们是用于处理图像的线性代数运算的基础。

现在,对于图像的每个像素,R,G和B的强度将由数字表示,该数字将是三个堆叠二维矩阵中的一个矩阵中的一个元素,这三个矩阵一起形成图像卷层。

这些数字是输入卷积网络的初始、原始、感官特征,ConvNets的目的是找出这些数字中的哪一个是有助于更准确分类图像的重要信号。 (就像我们讨论过的其他前馈网络一样)。

卷积网不是一次只关注一个像素,而是采用方形的像素块并将它们传递给滤波器。 该滤波器也是比图像本身小的正方形矩阵,大小与patch 相同。 它也被称为内核,对于那些熟悉支持向量机的人来说,这将敲响警钟,过滤器的工作是在像素中找到模式。

这部优秀动画的功劳归于Andrej Karpathy。

想象两个矩阵。 一个是30x30,另一个是3x3。 也就是说,滤波器覆盖一个图像通道表面区域的百分之一。

我们将使用此图像通道像素块和滤波器的点积。 如果两个矩阵在相同位置具有高的灰度值,则输出的点积值也是高的。 否则,输出就会产生很低的点积。 通过这种方式,单个值(输出的点积)可以告诉我们底层图像中的像素图案是否与滤波器表示的像素图案匹配。

让我们假设滤波器表示一条水平线,第二行有高值,第一和第三行有低值。 现在想象我们从底层图像的左上角开始,然后我们一步一步地将滤波器移过图像,直到它到达右上角。 步长的大小称为步幅。 你可以一次将滤波器移动一列,也可以选择更大的步幅。

在每个步骤中,你取另一个点积,并将该点积的结果放在第三个被称为激活图矩阵中。 激活图的宽度或列数等于滤波器遍历底层图像所用的步数。 由于更大的步幅导致更少的步骤,因此大步幅将产生更小的激活图。 这一点很重要,因为卷积网络在每一层处理和产生的矩阵的大小与它们的计算成本以及它们需要多长时间训练成正比。 更大的步幅意味着更少的时间和计算量。

滤波器最先叠加在前三行上并滑过它们,然后再次从同一图像的第4 - 6行开始。如果它步幅为3,那么它将产生一个10x10的点积矩阵。 表示水平线的相同滤波器可以应用于底层图像R,G和B的所有三个通道。并且可以将三个10x10激活图添加到一起,以便在所有三个通道上的水平线的聚合激活图也是10x10。

现在,因为图像在许多方向上都有线条,并且包含许多不同类型的形状和像素模式,所以你需要在底层图像上滑动其他滤波器以搜索这些模式。 例如,你可以在像素中查找96种不同的模式。 这96个模式将创建96个激活映射形成的堆栈,从而产生一个10x10x96的新卷。 在下图中,我们重新标记了输入图像,内核和输出激活图。
我们刚刚描述的是卷积。 你可以将卷积视为信号处理中使用的一种奇特的乘法。 考虑创建两个矩阵的点积的另一种方法是当做两个函数。 图像是底层函数,滤波器是你在底层函数上滚动的函数。
图像的主要问题之一是它们是高维的,这意味着它们需要花费大量的时间和计算能力来处理。 卷积网络旨在以各种方式降低图像的维度。 滤波器步幅是降低维度的一种方法。 另一种方式是通过下采样。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值