计算机视觉与深度学习-卷积神经网络

以下内容是自己学习北京邮电大学鲁鹏副教授计算机视觉与深度学习课程(A02)的一些笔记,
笔者能力有限,如有错误还望各位大佬在评论区批评指正 。

先贴一下课程官网:CV-XUEBA

卷积的一些知识可以看上篇,地址:计算机视觉与深度学习-卷积&图像去噪&边缘提取

写在开头:笔者是上篇和这篇这两节课一起听的,所以对卷积神经网络各个层有了一个比较清晰的认识,由于笔者能力有限,有很多内容笔者自认为并没有很好的写出来,所以这篇文章有点简短,如果大家看后有比较大的疑问,十分建议大家去看看老师的课,真的很棒。

目录

1、全连接神经网络的瓶颈

2、卷积神经网络

2.1 卷积神经网络的组成

2.2 卷积网络的卷积核

2.3 卷积层

2.4 卷积步长

3、池化层

 4、图像增强


1、全连接神经网络的瓶颈

前面学习了一下全连接神经网络,但是当图像越大时,隐层的每个神经元的权值个数就越大,当达到一定规模后,系统可能就跑不动了。以CIFAR10为例,每张图片的尺寸是32x32x3,那么隐层的每个神经元的权值个数就是32x32x3+1。因此全连接神经网络适合处理小图像,或者已经将图像表示为向量的情况,例如我们可以把卷积后得到的向量作为全连接神经网络的输入,这样就可以减轻系统的负担。

2、卷积神经网络

2.1 卷积神经网络的组成

卷积层(CONV):对图像卷积得到特征响应图。

激活层(RELU):对卷积输出的结果通过激活函数(一般是RELU函数)后输出。

池化层(POOL):简单计算,增大感受野。

全连接层(FC):也就是全连接神经网络,接收向量的输入,输出类别的向量。可以理解为前四层是一个大的卷积核,输出的是特征响应图。

 2.2 卷积网络的卷积核

卷积网络的卷积核不仅有宽和高,还有深度,也就可以是说这个模板是立体的,常写成:宽度 x 高度 x 深度。

卷积核参数不仅包括核中存储的权值,还包括一个偏置值。数学公式:w^{T}x+b,其中w为卷积的权值,b为卷积核的偏置。

2.3 卷积层

通过对图像卷积就可以得到一张特征响应图。

 再用其他的卷积核卷积就可以得到多张特征响应图,需要注意的是,原图像的深度需要与卷积核深度一致,特征响应图个数与卷积核个数一一对应。由于卷积核的不同,得到的特征响应图就放映了对应卷积核基元的信息。

 2.4 卷积步长

卷积神经网络中,卷积核可以按照指定的间隔进行卷积操作,这个间隔就是卷积步长。

在不考虑深度的情况下,有以下关系:

 前面我们已经知道,在卷积过程中会出现需要进行边界填充的问题,最常用的是零值填充,零值填充数量p是指填充像素的行数或者列数,那么存在以下关系:

边界填充公式即可以正向求出特征图尺寸,卷积前后的图像大小一致时,也可以反过来求出需要填充像素的个数,当然上述都是在其他都已知的情况下。

在加入深度后,结合上面卷积层的知识点,我们可以很清晰的知道,输出特征图尺寸的深度D2=K(卷积核个数)

3、池化层

池化的作用:对每一个特征响应图独立进行,降低特征响应图组中每一个特征响应图的宽度和高度,减少后续卷积层的参数的数量,降低计算资源耗费,进而控制过拟合。

常见的池化操作:

1.最大池化:使用区域内的最大值来代表这个区域。将窗口内最大的基元保留下来,类似于非极大值抑制。

2.平均池化:采用区域内所有值的均值作为代表。

池化操作不改变图像的深度,只改变图像的宽度和高度。

 4、图像增强

由于现在的卷积神经网络越来越复杂,非常容易出现过拟合现象,因此需要数据增强来扩充数据集。

数据增强:是从现有的训练样本中生成更多的训练数据,其方法是利用多种能够生成可信图像的随机变换来增加样本。

数据增强的目标是让模型能够观察到数据的更多内容,从而具有更好的泛化能力。

数据增强的方法有:纺专,随机缩放,抠图,拉伸,径向畸变等等,详见之前篇。


*再次申明这只是笔者自学课程的一些笔记,想着学了留下点东西,限于笔者能力有限,
如有错误还望大神指正。如果觉得笔者水平太低大可当作饭后消遣。希望我们在视觉学习的道路上勇往直前!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 深度学习是一种以模型来了解数据的机器学习技术,它利用多层神经网络来学习复杂的数据,从而实现自动的特征提取和分类等功能。卷积神经网络是一种深度学习技术,它利用卷积运算来学习图像和视频信息,实现对图像和视频的自动分析、识别和分类等功能。 ### 回答2: 深度学习是人工智能领域中的一种学习方法,旨在模拟人脑神经网络的工作原理。它通过建立多层的神经网络结构,利用大量数据进行训练,自动提取和学习特征,从而实现对复杂数据的分析和处理。深度学习的目标是通过不断优化网络结构和参数,使得网络能够自动地从数据中学习到更加高层次、抽象的特征表示。 而卷积神经网络(Convolutional Neural Network,CNN)是深度学习中的一种重要网络结构。CNN主要用于处理具有网格结构的数据,例如图像、视频等。它通过卷积操作和池化操作,对输入数据进行特征提取和降维处理。卷积操作通过滑动的卷积核对数据进行卷积运算得到感知层,用于提取局部特征。而池化操作则通过降采样的方式减少数据维度,提高计算效率。 卷积神经网络的优势主要体现在以下几个方面:首先,卷积操作使得网络能够有效地利用输入数据的空间结构信息,从而减少参数数量,提高网络的泛化能力;其次,卷积神经网络通过多层结构,逐渐提取抽象的特征表示,能够处理具有复杂结构和高维度的数据;最后,卷积神经网络在图像识别、目标检测、语音识别等任务上表现出色,并在多个领域取得了重大突破。 总的来说,深度学习是一种模拟人脑神经网络的学习方法,通过建立多层网络结构从数据中获取高层次、抽象的特征表示。而卷积神经网络作为深度学习中的一种网络结构,在处理具有网格结构数据时具有重要作用,通过卷积和池化操作能够从图像等数据中提取特征、降维处理,广泛应用于图像识别、目标检测等领域。 ### 回答3: 深度学习是一种机器学习的方法,通过多层次的神经网络来学习和提取数据的特征。它模拟了人脑中神经元之间的信息传递和处理过程,具有优秀的自适应能力和泛化能力。 深度学习的核心是神经网络,而卷积神经网络(Convolutional Neural Network, CNN)是深度学习中的一类神经网络结构。它专门应用于处理图像和语音等具有结构化数据的任务。 卷积神经网络的特点是层次化的结构,通常由输入层、卷积层、池化层和全连接层等组成。其中,卷积层通过卷积操作对输入图像进行特征提取,可以捕捉到不同位置的局部特征。而池化层则通过降采样的方式减少计算量,提高特征的不变性。 卷积神经网络通过反向传播算法进行训练,不断调整网络参数以使得网络输出与真实标签之间的误差最小化。训练过程中需要大量的标注数据和计算资源,但是在训练完成后,卷积神经网络可以快速地对新的输入进行预测。 深度学习卷积神经网络计算机视觉领域取得了很大的成功,例如图像分类、目标检测、人脸识别等任务。它们不仅可以自动地提取出图像中的关键特征,还可以学习到更加复杂的特征表示。此外,深度学习卷积神经网络也在自然语言处理、语音识别等领域得到广泛应用。 尽管深度学习卷积神经网络在很多任务上表现出色,但是其模型复杂度高、计算资源需求大,且对标注数据的依赖程度较高。因此,研究者们一直在努力寻求更高效的算法和更好的架构来解决这些问题,以进一步提升深度学习卷积神经网络的性能和应用范围。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值