第一章 深度学习发展历程

人工智能包含机器学习和深度学习,深度学习是实现人工智能的一个工具或者技术手段。深度学习热度趋势可以看出它真的很热门

      

1.深度学习的起源和发展

“深度学习(Deep Learning)”是2006年由多伦多大学(University of Toronto)的Geoffrey Hinton教授与他的同事们提出的,他也因此被称为“深度学习之父”。深度学习与人工神经网络(Artificial Neural Network,ANN)关系密切,因此深度学习的起源可以追溯到更早的时间。

分为三个阶段。第一阶段(1943-1969),第二阶段(1980-1989),第三阶段(2006- 如今)

1.1 第一阶段(1943-1969)

1943年:Warren McCulloch和Walter Pitts提出了MP神经元模型,模拟人类神经元

1957年:Frank Rosenblatt提出由两层神经元组成的感知机 (Perceptron)

1960年:Bernard Widrow和Ted Hoff提出了ADLINE神经网络

1969年:Marvin Minsky和Seymour Papert指出感知器只能做简单的线性分类任务,无法解决异或操作(XOR)这种简单分类问题,导致人工神经网络的研究陷入低谷

1.2 第二阶段(1980-1989)

1982年:John Hopfield提出了Hopfield神经网络,有连续型和离散 型两种类型,分别用于优化计算和联想记忆。

1984年:Kunihiko Fukushima(福岛邦彦)提出了模拟生物视觉传导通路的神经认知机,被认为是卷积神经网络的原始模型。

1986年:David Rumelhart、Geoffrey Hinton和Ronald Williams重新独立提出了误差反向传播算法(Error Back Propagation, BP),并指出多层感知机可以解决异或操作(XOR)这样的线性不可分问题。

1986年与1990年,分别出现了Jordan Network与Elman Network两种循环神经网络(Recurrent Neural Networks,RNN)。

1995年:Corinna Cortes和Vladimir Vapnik提出了支持向量机 (Support Vector Machine,SVM),除了其简单的训练方法与优越的性能超过了人工神经网络之外,其良好的可解释性,公式推导的优美,使得人工神经网络(黑盒子,解释性困难)研究再次进入低谷期。

1997年:Jurgen Schmidhuber和Sepp Hochreiter提出了长短期记忆网络(Long-Short Term Memory,LSTM),极大地提高了循环神经网络的效率和实用性。

1998年:Yann LeCun提出了称作LeNet-5的卷积神经网络(Convolutional Neural Networks ,CNN),率先将人工神经网络 应用于图像识别任务。

1.3 第三阶段(2006-现在)

2006年:Geoffrey Hinton和他的同事们提出了一种称作深度信念网络(Deep Belief Networks,DBN)的多层网络并进行了有效的训练,同时提出了一种通过多层神经网络进行数据降维的方法,正式提出了深度学习的概念。

2012年:Alex Krizhevsky在CNN中引入ReLU激活函数,在图像识别基准测试中获得压倒性优势,深度学习在2012年之后在业界引起了巨大的反响。

2012年:Frank Seide等人使用深度神经网络进行语音识别, 相比于传统的GMM和HMM,识别错误率下降了20%-30%, 取得了突破性的进展。

2012年:Alex Krizhevsky等人提出了AlexNet,它引入了ReLU激活函 数 ,并使用GPU加速 。 在著名的 ImageNet图像识别大赛中,AlexNet使得图像识别错误率从 26%下降到了15%,并夺得2012年的冠军。在随后几年的ImageNet图像识别大赛中,又出现了一些经典的卷积神经网络,如VGGNet、GoogleNet、ResNet、SENet等,图像识别错误率继续下降。

2014年起:R-CNN、Fast R-CNN、Faster R-CNN等一系列 目标检测模型的提出,极大地提升了目标检测的精度,但是它们一般要经过特征提取分类/回归两个阶段才能完成, 模型训练效率较低

2014年:生成对抗网络(GAN)由当时还在蒙特利尔大学读博士的Ian J. Goodfellow提出,由于它无需标注大量的数据即可进行训练,在学术界迅速掀起了研究热潮。GAN在图像生成、 图像转换、图像迁移、图像修复等领域都有很好的应用。

2016年:YOLO目标检测模型被提出,由于它是一个端到端的模型,大大提高了模型训练与推理效率,但模型的精度不如R-CNN系列高,之后YOLO的后续版本陆续被推出, 目前已经到了第八版

2017年:SENet的图像识别错误率已经下降到了2.25%,由 于错误率已经到了极限,这也导致ImageNet图像识别大赛从2018年开始不再举办。

在自然语言处理领域,LSTM门限循环单元(Gated Recurrent Unit,GRU)等循环神经网络在语言模型、机器翻译等任务上也取得了很大的进展

特别是随着Transformer的出现,使BERT、GPT等预训练大模型进入人们的视野,这些大模型在自然语言处理领 域多个任务上都超越了已有方法

2022年以来:ChatGPT、GPT4.0的相继问世更是使得大型 通用语言模型达到了前所未有的高度,被誉为信息技术领 域里程碑式的突破

2023年:百度公司在国内也率先推出了大型通用语言模型文心一言,之后清华大学、复旦大学、华为公司、阿里公司、科大讯飞也都发布了自己的大模型,开启了大型中文语言模型的新时代。

Zhao, Wayne Xin, et al. "A survey of large language models." arXiv preprint arXiv:2303.18223 (2023).

当前,深度学习仍然是人工智能领域关注度最高的主题之 一 ,研究如火如荼,应用五花八门

在研究方面:基于AI的内容生成、多模态数据分析、深度 强化学习等工作正在火热进行

在应用方面:深度学习已经在安防、医疗、金融、智能制 造、无人驾驶等多个领域取得了显著的成果

2.深度学习与机器学习、AI的关系

2.1 人工智能基本概念

人工智能定义:

最早在1956年的美国达特茅斯会议( Dartmouth Conference)上提出,当时会议的主题是“用机器来模仿人类学习以及其它方面的智能” 。因此,1956年被认为是人工智能的元年。  一般认为,人工智能是研究、开发用于模拟、延伸和扩展人的智能 的理论、方法、技术及应用系统的一门新兴学科。

“人工智能,是利用数字计算机或者数字计算机控制的机器模拟、延伸 和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理 论、方法、技术及应用系统。”---- 全国信息安全标准化技术委员会

分类:

强人工智能:认为有可能制造出真正能推理和解决问题的智能机器, 这样的机器被认为是有自主意识的

弱人工智能:认为不可能制造出能真正进行推理和解决问题的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识

超级人工智能:机器的智能彻底超过了人类,你觉得什么时候到来?会有赛博朋克2077里的那般景象吗?

马斯克说过:碳基生物是硅基生物的垫脚石。

2.2 机器学习基本概念

机器学习定义:

让计算机具有像人一样的学习和思考能力的技术的总称。具体来说 是从已知数据中获得规律,并利用规律对未知数据进行预测的技术。一个简单的例子,利用机器学习算法对往年的天气预报数据进行学 习,就能够预测未来的天气预报数据。

机器学习分类:

1.监督学习(跟学师评):有老师(环境)的情况下,学生(计算 机)从老师(环境)那里获得对错指示、最终答案的学习方法。包 含线性回归、多项式回归、决策树和随机森林等回归算法,以及 KNN、逻辑回归、贝叶斯和支持向量机等分类算法。

2.无监督学习(自学标评):没有老师(环境)的情况下,学生(计 算机)自学的过程,一般使用一些既定标准进行评价,或无评价。 包含K-Means聚类、主成分分析、关联分析和密度估计等算法。

3.弱监督学习:仅有少量环境提示(教师反馈)或者少量数据(试题 )标签(答案)的情况下,机器(学生)不断进行学习的方法。包 含强化学习、半监督学习和多示例学习等算法

3.深度学习的基本概念与典型算法

深度学习是指通过构建多层神经网络结构来学习数据的特征,以便 于进行数据分类、回归与生成。深度学习与浅层学习相比,神经网络结构的层数更多(一般大于或等于4层),通过多层神经网络结构可以学习得到更丰富的数据特征。

浅层前馈神经网络和深度前馈神经网络:

有监督学习的浅层学习算法:决策树、支持向量机、感知机和Boosting等。

无监督学习的浅层学习算法:自编码器、受限玻尔兹曼机、 高斯混合模型和稀疏自编码器等

有监督学习的深度学习算法:深度前馈神经网络、卷积神经网络、循环神经网络、Transformer、胶囊网络和深度森林等。

无监督学习的深度学习算法:深度自编码器、生成对抗网络、深度玻尔兹曼机和深度信念网络等。

4.深度学习的主要应用

4.1 图像处理领域主要应用

图像分类(物体识别):整幅图像的分类或识别

物体检测:检测图像中物体的位置进而识别物体

图像分割:对图像中的特定物体按边缘进行分割

图像回归:预测图像中物体组成部分的坐标

4.2 计算机视觉领域主要应用

人脸识别:首先通过目标检测提取人的正脸,然后通过人脸识别人 员身份。

行人重识别:检测视频序列中的行人,并识别特定人员的身份。

目标跟踪:在连续的视频帧中定位某一行人或者其他运动目标。

动作识别:识别视频中人体的动作/行为

产品缺陷检测:检测工业产品存在的缺陷

4.3 语音识别领域主要应用

语音识别:将语音识别为文字

声纹识别:识别是哪个人的声音

语音合成:根据文字合成特定人的语音

4.4 自然语言处理领域主要应用

语言模型:根据之前词预测下一个单词。

情感分析:分析文本体现的情感(正负向、正负中或多态度类型)。

神经机器翻译:基于统计语言模型的多语种互译。

神经自动摘要:根据文本自动生成摘要。

机器阅读理解:通过阅读文本回答问题、完成选择题或完型填空。

自然语言推理:根据一句话(前提)推理出另一句话(结论)。

4.5 综合应用(多模态)

图像描述:根据图像给出图像的描述句子

可视问答:根据图像或视频回答问题

图像生成:根据文本描述生成图像

视频生成:根据故事自动生成视频

  • 17
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值