《机器学习》总复习（下）

最新推荐文章于 2024-06-08 21:27:25 发布

金子的限定三文鱼块

最新推荐文章于 2024-06-08 21:27:25 发布

阅读量351

点赞数 1

分类专栏：机器学习与模式识别文章标签：机器学习神经网络聚类算法

本文链接：https://blog.csdn.net/weixin_45981515/article/details/112391903

版权

机器学习与模式识别专栏收录该内容

2 篇文章 1 订阅

订阅专栏

本文对机器学习中的随机森林、神经网络基础和聚类算法进行了深入复习。介绍了随机森林的概念、训练过程及优缺点，强调了其在处理高维数据和缺失值方面的优势。接着探讨了Adaboost算法的工作原理，作为弱分类器的组合器。神经网络部分涵盖了基础概念、感知机、多层感知机、BP神经网络、深度学习、卷积神经网络（CNN）和循环神经网络（RNN），包括LSTM和GRU。聚类算法部分讲解了K-Means和层次聚类的基本思想和流程。最后，简述了遗传算法（GA）及其在优化问题中的应用。

摘要由CSDN通过智能技术生成

第六章《随机森林》

6.1 随机森林
1.概念：
(1)集成学习：将多个弱分类器组合成一个强分类器，从而得到更合理的边界，减少分类错误，实现更好的分类效果。
①Bagging算法：是集成学习领域的一种基本算法。它从训练集进行子抽样从而组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。（但我们在训练过程中,应当重点去关注前面那些被分类错误的样本,而不是对所有的样本都同一看待,那些分类错误的样本也应当在抽样中抽到的概率更大。因此，基于对Bagging算法的改进,出现了Boosting算法和Adaboost算法。）
②Boosting算法：此算法更关注于被分类错误,首先给每一个训练样例赋予同样的权值,然后训练构造出第一个弱分类器,在这个弱分类器上进行测试,对于那些分类错误的测试样例提高权重,然后用调整过权值的训练集再去训练第二个弱分类器,重复执行以上过程直到最后得到一个足够好的分类器。
2.随机森林：
（1）概念：
随机森林中的每一棵分类树为决策树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分,在决策树中,根节点包含全部训练数据,按照节点纯度最小原则,选择该节点的划分属性,并对训练数据集同时进行划分,生成子节点,直到满足分支停止规则而停止生长。

（2）训练过程：
①原始训练集为D,应用Bootstrap法有放回地随机抽取k 个新的自助样本集,并由此构建k 棵决策树。
②每棵树最大限度地生长,不做任何修剪。
③将生成的多棵决策树组成随机森林,用随机森林分类器对新的数据进行判别与分类,森林中的每一棵树都对新的数据进行预测和投票,最终得票最多的分类项即为随机森林对该数据的预测结果。
（3)优劣处：
①优点：
· 随机森林对于高维数据集的处理能力比较好,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。
· 在对缺失数据进行估计时,随机森林是一个十分有效的方法。就算存在大量的数据缺失,随机森林也能较好地保持精确性。
· 当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。
②缺点：
随机森林给人的感觉像是一个黑盒子———你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试,从而得到一个更优的分类器。
6.2 Adaboost
1.概念：该算法主要是在整个训练集上维护一个分布权值向量,用赋予权重的训练集产生弱分类器,然后计算这个弱分类器的错误率,用这个错误率去更新分布权值向量,对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值,每次更新后用相同的弱分类算法产生新的分类假设,这些分类假设的序列构成多分类器。最终对这些多分类器用加权的方法进行联合,就可以得到决策结果,这种方法的好处在于不要求单个分类器有较高的识别率,即不要求寻找识别率很高的基分类算法。

Adaboost算法是一种实现简单,应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器,同时具有分类错误率上界随着训练增加而稳定下降,不会过拟合等性质,应该说是一种很适合于在各种分类场景下应用的算法。

第七章《神经网络基础》

导言：人工神经网络是连接主义(人工智能中非常重要的一个学派)最为广泛使用的模型。
人工神经网络/连接主义模型具有以下三个特点：
①拥有处理信号的基础单元；
②处理单元之间以并行方式连接；
③处理单元之间的连接是由权重的；
7.1 基础概念
1.概念：
(1)符号主义：显式地使用逻辑规则进行计算与推理
(2)连接主义：模拟生物神经网络的信息处理方式
(3)神经元：基本的信息操作和处理单位

（4)神经网络：是一个有向图，以神经元为顶点，神经元的输入为顶点的入边，神经元的输出为顶点的出边。
①输入层：接受来自网络外部的数据的顶点
②输出层：向网络外部输出数据的顶点
③隐藏层：除了输入层和输出层以外的其他层
④训练：根据训练样本，对神经网络内部的参数进行调整与修正
⑤有监督训练：训练样本包含神经网络的输入与预期输出
⑥非监督训练：训练样本仅包含神经网络的输入
7.2 感知机(是一种监督训练的二元分类器)
1.分类： ·单层感知机 ·多层感知机
(1)单层感知机

问题：无法克服线性不可分的问题（如：异或运算）
(2)多层感知机（可实现异或运算）

多层感知机被引入的同时：也引入了一个新的问题：由于隐藏层的预期输出并没有在训练样例中给出，隐藏层节点的误差无法像单层感知机那样直接计算得到。为解决这个问题，BP算法被引入。
7.3 BP神经网络（Back Propagation)
1.后向传播算法（Back Propagation, BP）：
(1)核心思想：将误差由输出层向前层后向传播，利用后一层的误差来估计前一层的误差
(2)梯度下降：

(3)后向传播：

第八章《神经网络基础》

8.1 什么是深度神经网络
1.使用深度神经网络的原因：
①神经网络作为函数逼近器，一层隐藏层的神经网络已经可以表示任意复杂的函数映射。
②神经网络作为特征抽取器，每个隐藏层抽取不同层次、反复出现的特征，隐藏层提供潜在结构
2.深度神经网络的问题：
①难以训练
②参数多
③梯度消失、梯度爆炸
3.针对上述问题的解决方案：
①共享参数
②局部连接
8.2 卷积神经网络（CNN）

· 二维卷积

以上是卷积操作，以下是池化操作

卷积神经网络输入输出的流程

卷积神经网络由一个卷积层、一个池化层、一个非线性激活函数层组成。
8.3 循环神经网络
导言：在循环神经网络之前，介绍的所以神经网络都有固定大小的输入，以及固定大小的输出。可以解决大部分的问题，满足人们的需求。但在另一些问题中，需要处理的对象是随时间变化的，即若序列是变长的，那传统上固定输入的神经网络就无能为力了。为处理此类问题：可以沿时间线共享参数以及时步之间局部连接。为此也就引入了循环神经网络。
1.循环单元：

其中：f ( · )被称为循环单元。

2.循环神经网络（具有循环单元的神经网络）：
（1）循环展开

（2）通过时间后向传播（BPTT）

· 问题：梯度消失、梯度爆炸
· 解决方案：
①改进优化算法
②使用带有门限机制的循环单元
（3)带有门限的循环单元
①引入目的：为解决长距离信息传递，梯度消失与梯度爆炸。
②经典门限类型：长短时记忆（LSTM）、门限循环单元（GRU）

第九章《聚类算法》

9.1 K-Means算法
1.算法简介：

2.算法流程：
(1)初始化K个聚类中心
(2)为每个个体分配聚类中心
(3)移动聚类中心
(4)迭代
9.2 层次聚类
1.算法简介：
层次聚类将所有个体各自看成一类，即共有m个簇。然后，计算每个簇与其他所有簇之间的距离，把最相似的两个簇合并成一个簇，此时共有m-1个类。层次聚类一次性、自下而上地绘制出了一个“聚类树状图” 。

2.算法特点：
层次聚类需要大量的距离计算，效率较低。

第十章《寻优算法之遗传算法,GA》

10.1 简介
1.基本过程：
遗传算法是对达尔文生物进化理论的简单模拟，遵循“适者生存，不适者淘汰”的原理。通常用来求解无约束和有约束的非线性优化问题。标准优化算法难以解决的目标函数不连续、不可微分、随机或高度非线性的问题，遗传算法也可以进行求解。遗传算法模仿生物进化的方式，交叉、变异当前最适应环境的一批个体，进而生成后续个体。
2.基本概念：
(1)适应度：每个个体在当前环境下适应程度的数字度量，即针对给定寻优问题，每种解的优秀程度。
(2)适应度函数：是期望优化的函数，代表了要解决的优化问题。
(3)基因：每个基因代表着寻优问题中一个参数的值。
(4)个体：代表搜索空间上的一个点，即对给定问题的一组完整解。
(5)种群：指代所有个体的集合。
(6)交叉：两个个体的基因在某些位置切断，互相交换基因片段，产生新的个体的过程。
(7)变异：遗传过程中有可能产生一些差错，导致个别基因位变化，适应度也随之改变。
3.输入输出：
(1)输入：根据具体问题的编码方式与寻优问题对应的适应度函数，对变量区间范围的限制，对算法的精度要求，群体的大小，进行交叉操作的个体所占群体比例，个体变异的概率，变异步长，一般寻优算法限制（最大迭代次数、算法最长运行时间等）。
(2)输出：在输入的限制下，遗传算法最终找到的最优秀的个体及适应度。
4.优缺点及应用：
(1)优点：
①遗传算法非常普适，即使对所寻优的目标函数了解不多，它也可以帮你寻找到一个较高质量的结果。
②易于并行化，进而降低使用计算机硬件的预算。
③目标函数不受连续、可微等条件的约束，适用范围很广。
④只需要修改适应度函数、针对具体的问题重新进行基因编码，而不需要对遗传算法本身做任何修改。
(2)缺点：全局搜索能力较弱，很容易较早地陷入局部最优。

金子的限定三文鱼块

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
《机器学习》总复习（下）

第六章《随机森林》6.1 随机森林1.概念：(1)集成学习：将多个弱分类器组合成一个强分类器，从而得到更合理的边界，减少分类错误，实现更好的分类效果。①Bagging算法：是集成学习领域的一种基本算法。它从训练集进行子抽样从而组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。（但我们在训练过程中,应当重点去关注前面那些被分类错误的样本,而不是对所有的样本都同一看待,那些分类错误的样本也应当在抽样中抽到的概率更大。因此，基于对Bagging算法的改进,出现了Boosti
复制链接

扫一扫