《机器学习》总复习(下)

本文对机器学习中的随机森林、神经网络基础和聚类算法进行了深入复习。介绍了随机森林的概念、训练过程及优缺点,强调了其在处理高维数据和缺失值方面的优势。接着探讨了Adaboost算法的工作原理,作为弱分类器的组合器。神经网络部分涵盖了基础概念、感知机、多层感知机、BP神经网络、深度学习、卷积神经网络(CNN)和循环神经网络(RNN),包括LSTM和GRU。聚类算法部分讲解了K-Means和层次聚类的基本思想和流程。最后,简述了遗传算法(GA)及其在优化问题中的应用。
摘要由CSDN通过智能技术生成

第六章《随机森林》

6.1 随机森林
1.概念:
(1)集成学习:将多个弱分类器组合成一个强分类器,从而得到更合理的边界,减少分类错误,实现更好的分类效果。
①Bagging算法:是集成学习领域的一种基本算法。它从训练集进行子抽样从而组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果。(但我们在训练过程中,应当重点去关注前面那些被分类错误的样本,而不是对所有的样本都同一看待,那些分类错误的样本也应当在抽样中抽到的概率更大。因此,基于对Bagging算法的改进,出现了Boosting算法和Adaboost算法。)
②Boosting算法:此算法更关注于被分类错误,首先给每一个训练样例赋予同样的权值,然后训练构造出第一个弱分类器,在这个弱分类器上进行测试,对于那些分类错误的测试样例提高权重,然后用调整过权值的训练集再去训练第二个弱分类器,重复执行以上过程直到最后得到一个足够好的分类器。
2.随机森林:
(1)概念:
随机森林中的每一棵分类树为决策树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分,在决策树中,根节点包含全部训练数据,按照节点纯度最小原则,选择该节点的划分属性,并对训练数据集同时进行划分,生成子节点,直到满足分支停止规则而停止生长。

(2)训练过程:
①原始训练集为D,应用Bootstrap法有放回地随机抽取k 个新的自助样本集,并由此构建k 棵决策树。
②每棵树最大限度地生长,不做任何修剪。
③将生成的多棵决策树组成随机森林,用随机森林分类器对新的数据进行判别与分类,森林中的每一棵树都对新的数据进行预测和投票,最终得票最多的分类项即为随机森林对该数据的预测结果。
(3)优劣处:
①优点:
· 随机森林对于高维数据集的处理能力比较好,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。
· 在对缺失数据进行估计时,随机森林是一个十分有效的方法。就算存在大量的数据缺失,随机森林也能较好地保持精确性。
· 当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。
②缺点:
随机森林给人的感觉像是一个黑盒子———你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试,从而得到一个更优的分类器。
6.2 Adaboost
1.概念:该算法主要是在整个训练集上维护一个分布权值向量,用赋予权重的训练集产生弱分类器,然后计算这个弱分类器的错误率,用这个错误率去更新分布权值向量,对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值,每次更新后用相同的弱分类算法产生新的分类假设,这些分类假设的序列构成多分类器。最终对这些多分类器用加权的方法进行联合,就可以得到决策结果,这种方法的好处在于不要求单个分类器有较高的识别率,即不要求寻找识别率很高的基分类算法。


Adaboost算法是一种实现简单,应用也很简单的算法。Adaboost算法通过组合弱分类器而得到强分类器,同时具有分类错误率上界随着训练增加而稳定下降,不会过拟合等性质,应该说是一种很适合于在各种分类场景下应用的算法。

第七章《神经网络基础》

导言:人工神经网络是连接主义(人工智能中非常重要的一个学派)最为广泛使用的模型。
人工神经网络/连接主义模型具有以下三个特点:
①拥有处理信号的基础单元;
②处理单元之间以并行方式连接;
③处理单元之间的连接是由权重的;
7.1 基础概念
1.概念:
(1)符号主义:显式地使用逻辑规则进行计算与推理
(2)连接主义:模拟生物神经网络的信息处理方式
(3)神经元:基本的信息操作和处理单位

(4)神经网络:是一个有向图,以神经元为顶点,神经元的输入为顶点的入边,神经元的输出为顶点的出边。
①输入层:接受来自网络外部的数据的顶点
②输出层:向网络外部输出数据的顶点
③隐藏层:除了输入层和输出层以外的其他层
④训练:根据训练样本,对神经网络内部的参数进行调整与修正
⑤有监督训练:训练样本包含神经网络的输入与预期输出
⑥非监督训练:训练样本仅包含神经网络的输入
7.2 感知机(是一种监督训练的二元分类器)
1.分类: ·单层感知机 ·多层感知机
(1)单层感知机

问题:无法克服线性不可分的问题(如:异或运算)
(2)多层感知机(可实现异或运算)

多层感知机被引入的同时:也引入了一个新的问题:由于隐藏层的预期输出并没有在训练样例中给出,隐藏层节点的误差无法像单层感知机那样直接计算得到。为解决这个问题,BP算法被引入。
7.3 BP神经网络(Back Propagation)
1.后向传播算法(Back Propagation, BP):
(1)核心思想:将误差由输出层向前层后向传播,利用后一层的误差来估计前一层的误差
(2)梯度下降:

(3)后向传播:

第八章《神经网络基础》

8.1 什么是深度神经网络
1.使用深度神经网络的原因:
①神经网络作为函数逼近器,一层隐藏层的神经网络已经可以表示任意复杂的函数映射。
②神经网络作为特征抽取器,每个隐藏层抽取不同层次、反复出现的特征,隐藏层提供潜在结构
2.深度神经网络的问题:
①难以训练
②参数多
③梯度消失、梯度爆炸
3.针对上述问题的解决方案:
①共享参数
②局部连接
8.2 卷积神经网络(CNN)




· 二维卷积

以上是卷积操作,以下是池化操作


卷积神经网络输入输出的流程

卷积神经网络由一个卷积层、一个池化层、一个非线性激活函数层组成。
8.3 循环神经网络
导言:在循环神经网络之前,介绍的所以神经网络都有固定大小的输入,以及固定大小的输出。可以解决大部分的问题,满足人们的需求。但在另一些问题中,需要处理的对象是随时间变化的,即若序列是变长的,那传统上固定输入的神经网络就无能为力了。为处理此类问题:可以沿时间线共享参数以及时步之间局部连接。为此也就引入了循环神经网络。
1.循环单元:

其中:f ( · )被称为循环单元。

2.循环神经网络(具有循环单元的神经网络):
(1)循环展开

(2)通过时间后向传播(BPTT)

· 问题:梯度消失、梯度爆炸
· 解决方案:
①改进优化算法
②使用带有门限机制的循环单元
(3)带有门限的循环单元
①引入目的:为解决长距离信息传递,梯度消失与梯度爆炸。
②经典门限类型:长短时记忆(LSTM)、门限循环单元(GRU)

第九章《聚类算法》

9.1 K-Means算法
1.算法简介:

2.算法流程:
(1)初始化K个聚类中心
(2)为每个个体分配聚类中心
(3)移动聚类中心
(4)迭代
9.2 层次聚类
1.算法简介:
层次聚类将所有个体各自看成一类,即共有m个簇。然后,计算每个簇与其他所有簇之间的距离,把最相似的两个簇合并成一个簇,此时共有m-1个类。层次聚类一次性、自下而上地绘制出了一个“聚类树状图” 。

2.算法特点:
层次聚类需要大量的距离计算,效率较低。

第十章《寻优算法之遗传算法,GA》

10.1 简介
1.基本过程:
遗传算法是对达尔文生物进化理论的简单模拟,遵循“适者生存,不适者淘汰”的原理。通常用来求解无约束和有约束的非线性优化问题。标准优化算法难以解决的目标函数不连续、不可微分、随机或高度非线性的问题,遗传算法也可以进行求解。遗传算法模仿生物进化的方式,交叉、变异当前最适应环境的一批个体,进而生成后续个体。
2.基本概念:
(1)适应度:每个个体在当前环境下适应程度的数字度量,即针对给定寻优问题,每种解的优秀程度。
(2)适应度函数:是期望优化的函数,代表了要解决的优化问题。
(3)基因:每个基因代表着寻优问题中一个参数的值。
(4)个体:代表搜索空间上的一个点,即对给定问题的一组完整解。
(5)种群:指代所有个体的集合。
(6)交叉:两个个体的基因在某些位置切断,互相交换基因片段,产生新的个体的过程。
(7)变异:遗传过程中有可能产生一些差错,导致个别基因位变化,适应度也随之改变。
3.输入输出:
(1)输入:根据具体问题的编码方式与寻优问题对应的适应度函数,对变量区间范围的限制,对算法的精度要求,群体的大小,进行交叉操作的个体所占群体比例,个体变异的概率,变异步长,一般寻优算法限制(最大迭代次数、算法最长运行时间等)。
(2)输出:在输入的限制下,遗传算法最终找到的最优秀的个体及适应度。
4.优缺点及应用:
(1)优点:
①遗传算法非常普适,即使对所寻优的目标函数了解不多,它也可以帮你寻找到一个较高质量的结果。
②易于并行化,进而降低使用计算机硬件的预算。
③目标函数不受连续、可微等条件的约束,适用范围很广。
④只需要修改适应度函数、针对具体的问题重新进行基因编码,而不需要对遗传算法本身做任何修改。
(2)缺点:全局搜索能力较弱,很容易较早地陷入局部最优。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金子的限定三文鱼块

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值