深度学习(6): 卷积神经网络1——发展及应用

在这里插入图片描述

注:转载请标明原文出处链接:https://xiongyiming.blog.csdn.net/article/details/99733020


1 卷积神经网络简介

卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”。
对卷积神经网络的研究始于二十世纪80至90年代,时间延迟网络和LeNet-5是最早出现的卷积神经网络;在二十一世纪后,随着深度学习理论的提出和数值计算设备的改进,卷积神经网络得到了快速发展,并被应用于计算机视觉、自然语言处理等领域。
卷积神经网络仿造生物的视知觉(visual perception)机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。
(以上均来自百度百科)

卷积神经网络的强大之处在于它的多层网络结构能自动学习输入数据的深层特征,不同层次的网络可以学习到不同层次的特征。如下图所示,浅层网络层感知区域较小,可以学习到输入数据的局部域特征(如图像物体的颜色、几何形状等);深层网络层具有较大的感知域,能够学习到输入数据中更加抽象一些特征(如图像物体的属性、轮廓特点、位置信息等高维性质)。深层次的抽象特征对图像中物体的大小、位置和方向等敏感度较低,从而大大提高了物体的识别率,因此卷积神经网络常用于图像处理领域。

在这里插入图片描述


2 卷积神经网络的发展

(1) 1962年 Hubel和Wiesel

卷积神经网络的发展,最早可以追溯到1962年,Hubel和Wiesel对猫大脑中的视觉系统的研究。
20世纪60年代初,David Hubel和Torsten Wiesel从约翰霍普金斯大学和Steven Kuffler一起来到哈佛大学,在哈佛医学院建立了神经生物学系。他们们在论文《Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex》中提出了Receptive fields的概念,因其在视觉系统中信息处理方面的杰出贡献,他们在1981年获得了诺贝尔生理学或医学奖。
Hubel和Wiesel记录了猫脑中各个神经元的电活动。他们使用幻灯机向猫展示特定的模式,并指出特定的模式刺激了大脑特定部位的活动。这种单神经元记录是当时的一项创新,由Hubel早期发明的特殊记录电极实现,他们通过这些实验系统地创建了视觉皮层的地图。

论文地址:

Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex [J]. The Journal of physiology, 1962, 160(1): 106-154.


(2) 1980年 福岛邦彦

1980年,日本科学家福岛邦彦在论文《Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position》提出了一个包含卷积层、池化层的神经网络结构。
福岛邦彦被誉为“八十多岁仍在奋斗的全球人工智能专家”。除了后来发展出卷积神经网络的Neurocognition(认知控制),现在深度学习中开始热闹起来的Attention(注意力)网络背后也有他的身影,他也在上世纪80年就提出过Attention概念和网络。

论文地址:

Fukushima K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position [J]. Biological cybernetics, 1980, 36(4): 193-202.


(3) 1998年 Yann Lecun

1998年,在这个基础上,Yann Lecun在论文《Gradient-Based Learning Applied to Document Recognition》中提出了LeNet-5,将BP算法应用到这个神经网络结构的训练上,就形成了当代卷积神经网络的雏形。
原始的CNN效果并不算好,而且训练也非常困难。虽然也在阅读支票、识别数字之类的任务上很有效果,但由于在一般的实际任务中表现不如SVM、Boosting等算法好,一直处于学术界边缘的地位。

在这里插入图片描述
论文地址:

LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.


(4) 2012年 Hinton

直到2012年,Imagenet图像识别大赛中,Hinton组的论文《ImageNet Classification with Deep Convolutional Neural Networks》中提到的Alexnet引入了全新的深层结构和dropout方法,一下子把error rate从25.8%降低到16.4%,颠覆了图像识别领域。
AlexNet有很多创新点,但现在看来是一项非常简陋的工作。他主要是让人们意识到原来那个福岛邦彦提出,Yann Lecun优化的Lenet结构是有很大改进空间的;只要通过一些方法能够加深这个网络到8层左右,让网络表达能力提升,就能得到出人意料的好结果。

在这里插入图片描述
论文地址:

Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [C]//Advances in neural information processing systems. 2012: 1097-1105.


基于AlexNet思想,后面相继发展了很多网络框架。如下图所示,2012 年起,全世界最著名图像处理比赛 ImageNet 的前10名无一例外由基于卷积神经网络的模型所包揽。卷积神经网络模型架构经过了5 ~ 6年的高速发展,涌现了如 AlxNet 、VGGNet、Google的GoogleNet、微软的ResNet 等著名的网络框架,使得基于卷积神经网络进行图像分类任务的准确率足以与人类的能力相媲美。

在这里插入图片描述



3 卷积神经网络的应用

卷积神经网络为图像而生,但应用不限于图像。在图像处理任务上,卷积神经网络可以用来识别位移、缩放及物体形态扭曲的二维图形。一方面,由于其网络模型中的特征是通过训练数据集进行图像特征学习,从而避免了显式地特征抽取;另一方面,由于图像上同一特征映射面上的神经元权值相同,所以卷积神经网络模型可以并行训练,极大地提高神经网络的训练时长。此外,与神经元彼此相连的神经网络(如传统的人工神经网络)相比,卷积神经网络模型的组织方式特殊,其结构模型更易于理解和分析。卷积神经网络的应用场景和案例并不一定能够真正应用在实际工程领域,但也是足够精彩,因为它不仅代表业界最先进的视觉技术(state-of-the-art),甚至还可能超出我们的想象范围,下面就来了解卷积神经网络的具体应用。

(1) 图像分类与识别

在卷积神经网络还没有普及之前,通常由人工抽取图像中的特定信息(如轮廓检测,边缘检测, LBP, HOG 、 HAAR 等特征检测方法〉来实现图像分类任务,然后对这些特征编写特定的算法来对分类模式进行匹配 。 如此显式地抽取图像特征的方法,不仅在特征工程问题上耗费了工程师们大量的时间,而且仍然会存在着许多严峻的问题等待工程师们去解决。如图像受光照影响、物体旋转影响、物体平移等空间信息的改变,其图像中物体的特征也会随之改变等,从而导致之前的模式识别方法失效。
在 2012 年的 ImageNet 图像分类比赛上, AlexNet 网络模型大幅度地超越了其他选手,夺得了当年图像分类大赛的冠军 ,因为 Alex 使用并改进了卷积神经网络模型 。 从那以后,卷积神经网络在图像分类上一枝独秀,其中手写字体( Hand Written)的识别率己经超越人类的识别率,达到了 99.9%。国外众多快递公司已经开始应用卷积神经网络模型识别快递单上的手写字体,尽最大可能地节约企业成本、提高自身的系统运作效率 。
完成图像分类之后,更加 富有挑战性的工作是对整体图像进行目标识别 。 因为一般图像中不只有一个类别,例如一张图片中可能包括多个类别: 一 只狗、 一栋房子 和 一棵树等。
近年来自动驾驶和辅助驾驶抢占了各大媒体的头条,如下图所示,正是因为卷积神经网络的帮助,它能够对车载终端来集到的图像进行强大的感知和处理。

在这里插入图片描述

(2) 自然语言处理(NLP)

卷积神经网络不再是图像处理任务专用的神经网络模型。近两年来,学者们将卷积神经网络应用于自然语言处理( Natural Language Processing, NLP)领域的研究,己经有了十分出色的表现,新成果和顶级论文层出不穷 。自然语言处理任务在卷积神经网络模型中的输入不再是像素点,大多数情况下是以矩阵表示的句子。矩阵的每一行对应一个元素,如果一个元素代表一个单词,那么每一行代表一个单词的向量。卷积神经网络模型应用在计算机视觉中,卷积核每次只对图像中的一小块区域进行卷积操作,但在处理自然语言时,卷积核通常覆盖上下几行(几个单词)。因此,卷积核的宽度和输入矩阵的宽度需要相同。


(3) 图像着色

图像着色问题是指将颜色添加到灰度图像中,即灰度图像恢复色彩的过程。传统的做法是人工去对每一帧图像中的每一个像素和每一个物体进行着色,这是一项艰巨的任务。使用人力手工完成该任务会带来两个大问题:

  1. 耗费大量的人力资源和宝贵的时间;
  2. 对于同 一个事物,不同人的着色标准是有差异的。

如下图所示,年代久远的纪录片可以真实还原当年的色彩,父母的老照片也终于可以还原出当年色彩艳丽的场景。

在这里插入图片描述

卷积神经网络的应用当然不止于此,我们还可以利用它进行人体姿态估计动作跟踪视频帧预测视频内容分类视频标注等。
卷积神经网络以其局部权值共享的特殊结构在语音识别、自然语言处理、图像处理方面有着独特的优越性。因为该网络模型的布局相对于人工神经网络更接近实际的生物神经网络,权值共享降低了网络的复杂性。特别是在图像处理领域,图像可以直接作为卷积神经网络模型的输入,避免了特征提取的特征工程和特征分类的模式识别过程,因此卷积神经网络应用比传统的神经网络更为广泛,也为深度学习的崛起发挥着巨大的作用。




参考资料

[1] https://www.jiqizhixin.com/articles/2019-05-27-4
[2] 图解深度学习
[3] 深度学习原理与实践
[4] TensorFlow实战Google深度学习框架(第2版)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TechArtisan6

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值