对于卷积神经网络图像识别的理论理解学习笔记

一.数学角度看卷积

1.离散

 范围内求和

 

2.连续

公式

 范围内积分

例如;
假设f函数代表进食情况,g函数代表消化的情况

 所以说我想要知道他下午两点点肚子里面剩的量,如果没有考虑消化问题,那么也就相当于是求两点前的进食量 ,也就是f(14)的积分,求取面积。

但是事实上来说一边进食肯定是要一边消化的,那么这个时候我们要是想要知道:假设他12点吃了顿饭,下午两点消化的还剩多少,那么只看f(x)函数就肯定是不够的了,我们就要考虑下g(x-t)函数了。

 所以说我们要是想要知道两个小时到底消化了多少呢,那就是

 关于f(x)和g(t-x)的函数关系大概就是可以如图所示,相当于是时间内所有情况的求和。

 所以我们大概可以这么看卷积的作用就是可以计算某一个系统其输入有多个因素因素较多,但是g(x)输出量是稳定的,那么我们就可以用卷积去计算系统的存量。

 3.傅里叶变换

二.图像处理

卷积核水平边缘处理,竖直边缘处理

池化

首先,介绍一下什么是卷积神经网络

它是使用卷积层(Convolutional layers)的神经网络,基于卷积的数学运算。

图像可以对应为函数f,卷积核可以对应为函数g,

其原因可以理解为图像上的像素点是在变化的,而且我们知道f函数就是对应一个函数中不稳定的输出量。

神经网络

 如图就是一个神经网络

最左面黄色的是输入层,对应的是数据的维度,数据通过这一层输入到神经网络中。

这里我们一层层说

 如图,这里每一条边都代表了权重系数,这个结构最终也是结果也表示一个线性方程。

 

不过其函数还需要经过一个激活函数的运算才能输入到下一层。

这里为了方便我们先从二维开始说

 其用向量表示是

 把他的输入输出在图像中表示出来

 如果我们开始扩大神经元

 那么式子就会变成矩阵

 图像复杂程度会变得越来越高,所以说只要神经元的复杂程度足够高,任何一条发杂的曲线都将可以被无限接近的近似表达出来。但是这里的前提要求是激活函数要是非线性的。

原因大概可以理解为如果数据全部都是二维的,全部都参杂在一起,很难用直线直接划分开来,

所以我们对他们进行升维操作,这样我们将会更加方便的用模型给他们分开

一个神经网络并不是只能有一个输出节点,只能进行二分类。他也是可以同时有多个输出节点的,去处理多分支问题。进行一个一个二分类问题,去判断是或者不是。

 这里我们就例如去识别一个数字8,他的最主要特征可以是看作为上下两个圆

 所以他就是会被神经网络提取出来作为判断的依据,但是这儿两个圆圈还有自己的子特征,所以说他将会被放在第二个隐藏层,而他的子特征四个圆弧将会放在第一层隐藏层。

 最后我们将会得到一个这样的多层次的特征,这样的好处是底层特征会被更容易复用。

就比如数字5,6等等。

神经网络的算法就是梯队下降法。

输出层就是对各种特征进行一个线性划分。

傅里叶变换

时域和频域是信号与信号与系统里面常用的概念,假设左边是一个电脉冲信号横轴是时间纵轴是电压高低,同样的东西还可以右表示横轴是频率,纵轴是频率信号的强弱。随着T变大频率会变小,右边的频域也将会从离散性变成连续型。

其计算公式是下图,我们公式中可以看出频域里面的一个点是把时域从负无穷到正无穷全都考虑进来了。

 

 关于时域和频域的理解可以看下这个视频,他举了弹簧的例子较好理解

#3#时域和频域_哔哩哔哩_bilibilihttps://youtu.be/noycLIZbK_k视频转载于油管上一位Youtuber,名为Brain Douglas,自己翻译的,既为了锻炼自己的英语,也为了学习自动控制,发出来希望可以对一些初学者有些帮助,也希望可以交到一些志同道合的朋友们,大家共同学习,一起探讨,进步。在翻译的时候感觉有时候直接译出来会比较难理解,所以加了一些个人的理解,不算是非常严谨的翻译吧,总之熟能生巧,希望能, 视频播放量 13038、弹幕量 30、点赞数 308、投硬币枚数 113、收藏人数 612、转发人数 78, 视频作者 karious, 作者简介 ,相关视频:【中文翻译配音】3D动画详细解释傅里叶与拉普拉斯变换!,看完绝逼理解“傅里叶级数”,什么是谐波,NO.10 三步搞定时域,频域,时频域分析,十分钟入门PID控制器,NO.15 特征提取之频域分析常用指标,NO.12 傅里叶变换频谱图你必须知道的,[信号与系统]四种信号的时域频域对应关系,25分钟搞懂傅里叶级数,电气四大天书https://www.bilibili.com/video/BV1sE411J7ot/?spm_id_from=333.880.my_history.page.click
傅里叶级数与傅立叶变换 | 熟肉_哔哩哔哩_bilibiliicon-default.png?t=M85Bhttps://www.bilibili.com/video/BV11W411H7Uz/?spm_id_from=333.788.recommend_more_video.1&vd_source=6d7bc792e7f3b0d07a9413b456146ade而我们这里研究的图片,也就可以看作成一个信号,我们可以把像素点的位置看作是坐标轴

 再加上RGB数值就可以搭建成一个三维的座标出来了

 我们可以看出,在上图中并没有时间这个轴,所以说时域就可以进而被称为空间域,这个时候的频域也就称之为变换域。

简单的来说,在图像处理中我们希望把图片中的一个像素点和周围其他像素点的关系浓缩到一点上。

但是我们需要给傅里叶变换加上约束,原因是如果不加约束的话我们稍稍加一点点东西都会对全局发生极大的影响。如下面两个图

 这个时候我们可以看得无论是时域还是频域,他们都是二维空间的。

 

所以我们就可以对原本描述信号的空间进行一个升维,假设给他升到无穷维。

 升维后的一个坐标可以代替的了原来的一整条曲线

 所以稍微想象一下可以衍生出任何一条二维曲线都将可以在多维空间中找到一个点去表示他,这就是升维的好处,提升空间的维度降低二维空间的曲线。在将点变成一个空间向量也将会有更多的使用方式就比如可以坐标系变换啥的。

 也就可以得到内积的定积分乘以对应坐标向量的单位向量。

 这个时候我们将无穷维的坐标轴对应到一个实数轴上去,f向量对应到一个新的二维坐标系内我们就可以得到一条曲线。

所以大概就可以理解了为啥在傅里叶变换里面出现的相同特征,与位置无关了。

特征和位置无关,无论特征出现在哪里,反映到变换域中都有相同的特征值。

Gabor变换

特征是局部的如果一个图像在不同位置出现了两个相同的特征反映到变换域里面他们的特征值也应该是相同的

 

 卷积核

卷积核由一组滤波器组成,是通过训练还有你想要得到是什么样的结果去获得的,其可以视为二维数字矩阵。这是一个示例3x3滤波器:

例如下面的4x4灰度图像和3x3滤波器:

图像中的数字表示像素亮度,0是黑色,255是白色。我们将对输入图像和滤波器进行卷积,生成2x2输出图像。

 首先,让我们将滤镜覆盖在图片的左上角:

 接下来,我们在重叠的图像和滤波器元素之间逐个进行乘法运算,按照从左向右、从上到下的顺序。

 把最右列的乘积结果全部相加,得到:

由于滤波器覆盖在输入图像的左上角,因此目标像素是输出图像的左上角像素:

 

我们可以将滤波器与输入图像进行卷积来产生输出图像,那么什么是卷积操作呢?具体的步骤如下:

  1. 在图像的某个位置上覆盖滤波器;
  2. 将滤波器中的值与图像中的对应像素的值相乘;
  3. 把上面的乘积加起来,得到的和是输出图像中目标像素的值;
  4. 对图像的所有位置重复此操作。

最终可以得到类似于下面这个图的最终获得一个像素块去试探周围的像素点相似度。

图像卷积的作用

例如我们使用前文的垂直**索伯滤波器**(Sobel filter)去处理图片,我们可以得到

 所以说,卷积有助于我们找到特定的局部图像特征(如边缘),用在后面的网络中。

填充

在上面的处理过程中,我们用3x3滤波器对4x4输入图像执行卷积,输出了一个2x2图像。

通常,我们希望输出图像与输入图像的大小相同。因此需要在图像周围添加零,让我们可以在更多位置叠加过滤器。3x3滤波器需要在边缘多填充1个像素。

池化

图像中的相邻像素倾向于具有相似的值,因此通常卷积层相邻的输出像素也具有相似的值。这意味着,卷积层输出中包含的大部分信息都是冗余的。

如果我们使用边缘检测滤波器并在某个位置找到强边缘,那么我们也可能会在距离这个像素1个偏移的位置找到相对较强的边缘。但是它们都一样是边缘,我们并没有找到任何新东西。

池化层解决了这个问题。这个网络层所做的就是通过减小输入的大小降低输出值的数量。

池化一般通过简单的最大值、最小值或平均值操作完成。以下是池大小为2的最大池层的示例:

 

 

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值