深入浅出神经网络与深度学习-深度学习（四）

最新推荐文章于 2024-08-04 18:24:05 发布

浮生梦浮生

最新推荐文章于 2024-08-04 18:24:05 发布

阅读量2.5k

点赞数

分类专栏：人工智能机器学习深度学习与神经网络文章标签：深度学习神经网络机器学习有监督学习无监督学习浅层特征有监督学习无监督学习强化学习前馈型神经网络深度神经网络

本文链接：https://blog.csdn.net/wudaoshihun/article/details/80585711

版权

人工智能同时被 3 个专栏收录

25 篇文章 2 订阅

订阅专栏

机器学习

17 篇文章 0 订阅

订阅专栏

深度学习与神经网络

8 篇文章 3 订阅

订阅专栏

1 深度学习

现在IT界人工智能、深度学习、机器学习很火，都能说出个123来，但真正知道他们的关系的我想只有真正去我们先来看下深度学习是个什么东东。他和人工智能，神经网络有什么关系？

l 深度学习网络：这里明确具体的概念，他是具有五层至十层，甚至更多的神经网络，并且引入了更有效的算法，而传统神经网络一般只有2层至3层神经网络。深度学习首先利用无监督学习对每一层进行逐层训练去学习特征；每次单独训练一层，并将训练结果作为更高一层的输入；然后到最上层改用监督学习从上到下进行微调去学习模型。

l 前馈型神经网络我们在之前章节也提到过，特征是至少有一个隐层。也就是说，多层前馈神经网络都是深度神经网络，但深度神经网络不一定是多层前馈神经网络。

深度神经网络包含递归神经网络与卷积神经网络。

l 机器学习：就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做只能识别或对未来做预测。

我们通过下边的图片来看他们之间的关系。

深度学习包含监督学习与非监督学习，但监督与非监督是指机器学习的学习方式。

由上述我们了解了深度学习的基本概念与神经网络，机器学习，人工智能的关系。下面我们具体的去了解下深度学习的体现方式及工作原理。

我们来看下浅层学习与深度学习，更有助于理清其中的关系。

浅层模型：含有一个隐层的叫多层感知机，也叫神经网络，这种模型叫做浅层模型。

支持向量机SVM，Boosting，最大熵方法LR。

1.1 监督学习

我们上述感知机学习使用的方式是有监督学习，它是在已有训练样本，也就是有固定样本及已知输出的情况下，去训练一个最优的模型（最优指在某个评判准则下最优），在利用这个模型将输入映射为相应的输出，对输出简单的判断从而实现分类的目的，也就具备了对未知数据进行分类的能力。

监督式学习就是有个人在旁边看着你学习，随时纠正你学习中的错误。

现在来看，如何纠正错误呢，

举个不是很形象的简单的例子，小孩看见苹果，大人会告诉小孩，这是苹果，可以吃，还有苹果的形状特征。那小孩记住了红红的，圆圆的就是苹果。而有一个不同品种的苹果在这，是青色的，小孩并不识别，这时候大人说这也是苹果，不过品种不一样。这时候小孩对苹果整体特征有一些泛化的认知模型，知道哪些具体的特征的就是苹果。

1.2 无监督学习

无监督学习则无需训练样本，直接对数据进行建模。听起来不可思议，举个比较典型的例子，都知道聚类吧。对于一些高维数据，通过人工并不能很好的去抽象出训练样本，那么只能通过聚类把这些高维数据抽象出相似度比较相近的数据，这样人工就可以去针对这些已经聚类好的数据去找寻规则。

而通常的情况下，一般都会采用有监督与无监督结合的方式，对这些高维数据聚类，然后通过有监督学习去解决一定的问题。

非监督学习的算法包括Apriori算法与K-Means算法。

什么时候用监督学习，什么时候用非监督学习，

1.3 监督学习与非监督学习

一般情况下，

非监督学习被用来（预）训练各个层。

非监督学习在之前学习到的层次之上，一次只学习一个层次，每个层次学习到的结果将作为下一个层次的输入。

除了一些专门用于预测的层次外，用监督学习来调整层与层之间的权重。

当然，上述也是看情况而定，对于高维的、复杂的、无法交容易的得出训练样本的，可以通过上述方式。而对于已经有特定的训练样本及输出的，反而用有监督学习会更合适，毕竟有人教总比没有人教强。

1.4 强化学习

要了解强化学习，我们得从一个实例来看。人是怎么玩游戏的？

例如王者荣耀开始，画面场景开始改变，玩家捕捉到场景变化，将视觉信号传输到大脑皮层处理，大脑皮层将视觉信号转化为人类理解的含义，通过之前玩的经验，将理解的含义与应该进行的操作做映射，并将映射得到的操作信号传递到身体并产生一个动作，走，攻击，回转等等手指操控手机动作。操作结束，游戏进入下一帧，重复上述。

我们让机器agent来替代玩家操作。

1. 由上一帧汇报信号学习到玩游戏的知识（什么场景下需要什么操作）

2. 视觉信号的处理与理解（降维，高层特征抽取）

3. 根据经验及高层的视觉特征，选择合理的经验（动作）

4. 从动作反馈到游戏（玩家手动部分）

由上述玩家玩游戏与agent玩游戏我们看到，都是在一个连续决策的过程中，根据以往经验进行。玩家玩游戏是越玩越好，agent也是如此。

其实强化学习就是一个连续决策的过程，最终的目的也是使决策过程中整体地回报函数期望最优。也就是说强化学习不是给定标注，而是给你一个回报函数，这个回报函数决定当前状态得到什么样的结果（好还是坏）。

那么我们知道什么是强化学习了，是通过一个过程来回的调整并给出所谓的“标注数据（汇报函数）”，而这个过程就称之为强化学习。