为什么卷积

最新推荐文章于 2025-02-05 23:37:24 发布

小欣峰暴

最新推荐文章于 2025-02-05 23:37:24 发布

阅读量413

点赞数

（这里主要解释下卷积具有什么意义，为什么人们会想到卷积。有些人一提到卷积可能首先想起来的是局部连接、参数共享呀等等，这些只是它带来的好处。如果一个方法对于我们的问题本身没有什么意义，即使它会带来一大堆的好处人们应该也是不会去使用的。）

19世纪60年代，科学家通过对猫的视觉皮层细胞研究发现，每一个视觉神经元只会处理一小块区域的视觉图像，即感受野（Receptive Field）。卷积神经网络的概念即出自于此。简单说这样做保留了图像的空间信息。

在卷积神经网络中，一个卷积层可以有多个不同的卷积核（也可以说是滤波器），而每个卷积核在输入图像上滑动且每次只处理一小块图像。这样输入端的卷积层可以提取到图像中最基础的特征，比如不同方向的直线或者拐角；接着再组合成高阶特征，比如三角形、正方形等；再继续抽象组合，得到眼睛、鼻子和嘴等五官；最后再将五官组合成一张脸，完成匹配识别。即每个卷积层提取的特征，在后面的层中都会抽象组合成更高阶的特征。
图像具有很强的空间相关性。其中每一个卷积核滤波得到的图像就是一类特征的映射，即一个Feature Map。和SIFT算法等类似，CNN训练的模型同样对缩放、平移、旋转等具有不变性（关于这一块，参考：卷积神经网络提取图像特征时具有旋转不变性吗？, 池化），有着很强的泛化能力。
为什么机器学习中图像卷积有用
图像中可能含有很多我们不关心的噪音。一个好例子是我和Jannek Thomas在Burda Bootcamp做的项目。Burda Bootcamp是一个让学生像黑客马拉松一样在非常短的时间内创造技术风暴的实验室。与9名同事一起，我们在2个月内做了11个产品出来。其中之一是针对时尚图像用深度编码器做的搜索引擎：你上传一幅时尚服饰的图片，编码器自动找出款式类似的服饰。

如果你想要区分衣服的式样，那么衣服的颜色就不那么重要了；另外像商标之类的细节也不那么重要。最重要的可能是衣服的外形。一般来讲，女装衬衫的形状与衬衣、夹克和裤子的外观非常不同。如果我们过滤掉这些多余的噪音，那我们的算法就不会因颜色、商标之类的细节分心了。我们可以通过卷积轻松地实现这项处理。

我的同事Jannek Thomas通过索贝尔边缘检测滤波器（与上上一幅图类似）去掉了图像中除了边缘之外的所有信息——这也是为什么卷积应用经常被称作滤波而卷积核经常被称作滤波器（更准确的定义在下面）的原因。由边缘检测滤波器生成的feature map对区分衣服类型非常有用，因为只有外形信息被保留下来。