机器学习笔记

最新推荐文章于 2024-09-12 21:05:39 发布

猪猪想上树

最新推荐文章于 2024-09-12 21:05:39 发布

阅读量1k

点赞数 16

文章标签：机器学习笔记人工智能

本文链接：https://blog.csdn.net/weixin_46103454/article/details/138748050

版权

机器学习

机器学习认知
- - 决策树
集成学习

机器学习认知

1、机器学习概念：
机器学习是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。
2、机器学习适用范围：
数据挖掘、模式识别、计算机视觉、语音识别、统计分析、自然语言处理等。
3、机器学习能解决什么问题？
对于给定数据的预测问题，包括:数据清洗/特征选择;确定算法模型/参数优化;结果预测。
4、机器学习类型：
在这里插入图片描述
5、监督学习：
(1)分类(Classification)位It根据西瓜的根蒂、色泽等属性来判断好瓜还是坏瓜?
(2)回归(Regression、 Prediction)未来的股票市场走向？
6、无监督学习：
(1)聚类(Clustering)根据学生的兴趣爱好，把同学们分成若干个兴趣小组
(2) 降维 (Dimensionality Reduction)如何将原高维空间中的数据点映射到低维度的空间中？
7、机器学习方法
（1）模型机器学习首先要考虑使用什么样的模型。模型的类别有两种:概率模型(Probabilistic Model)和非概率模型(Non-Probabilistic Model)。
概率模型:决策树、朴素贝叶斯等。
非概率模型:
感知机、支持向量机、K-means以及神经网络等。可按照判别函数线性与否分成线性模型与非线性模型:
线性模型：感知机、线性支持向量机、K-means
非线性模型：核支持向量机、神经网络
(2）损失函数
1.0-1损失函数(0-1 Loss Function)
在这里插入图片描述
2.平方损失函数(Quadratic Loss Function)

3·绝对损失函数(Absolute Loss Function)

(3）优化算法算法指的是模型学习中的具体计算方法,也叫解决问题的过程。一般来说,基于参数模型构建的统计学习问题都是最优化问题。现有的优化方法主要有:梯度下降法、牛顿法、拟牛顿法等等。
（4）模型评估指标准确率:模型对整个样本的判定能力,即能将好样本预测为好、坏样本预测为坏的能力。

范围在0-1之间，值越大越好。
8、机器学习开发流程：
在这里插入图片描述 ## 逻辑回归
1、线性回归：
线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面，使得预测值与真实值之间的误差最小化。
2、分类问题
（1）二分类
在这里插入图片描述
（2）多分类

3、逻辑回归模型简介
（1）逻辑回归背景逻辑回归模型,是最常用分类模型之一,其模型经常用作基准模型,用于衡量其它模型的效果。利用逻辑回归进行分类的主要思想是: 根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。
（2）逻辑回归主要基于以下三个目的：
（1）预测结果等于1 (即坏样本)的概率;
（2）对结果或预测进行分类；
（3）评估模型预测的相关概率或风险。
（3）优缺点
（1）优点：
1)简单高效,计算速度快,易于理解和实现,易并行,在大规模数据情况下非常适用;
2)直接对分类可能性进行建模,无需事先假设数据分布,避免了假设分布不准确所带来的问题；
3)以概率的形式输出,而非只是0和1判定,对许多利用概率辅助决策的任务很有用,输出值自然地落在0到1之间,有概率意义,且背后的概率理论经得住推敲;
4)具有很好的数学性质,许多现有的数值优化算法都可以用来求最优解,训练速度快;
5)模型清晰,它拟合出来的参数代表了每一个特征对结果的影响,是一个理解数据的好工具。
（2）缺点：
1)逻辑回归模型对共线性非常敏感,当自变量之间存在高度的自相关时,会导致估计的误差膨胀,故在应用逻辑回归模型时需对是否存在共线性进行检验。可采用的是方差膨胀因子(Variance Inflation Factor,简记为, VIF)作为是否存在多重共线性的判断标准；
2)容易欠拟合,大多数情况下需要手动进行特征工程,构建组合特征,分类精度可能不高；
3)本质上是一个线性的分类器，处理不好特征之间相关的情况。
4、逻辑回归原理
（1）构造函数（Sigmoid函数）逻辑回归源于一个非常朴素的想法:对于二分类问题,如果样本的输入是一个标量,且设置样本的标签值为1或者0，能否直接预测出一个样本属于分类1的概率值?因此我们需要构造一个函数,将(一0,+0)内的实数值变换到区间(0,1)上。构造函数如下：
在这里插入图片描述

（2）设置分布函数

（3）分类规则

5、什么是梯度下降法？
梯度下降法是用来计算函数最小值的。

决策树

1、什么是决策树？
决策树(Decision Tree)是一种非参数的监督学习方法,通过对训练集数据的学习,挖d掘出一定的规则用于对新的数据集进行预测。
在这里插入图片描述
我们可以将决策树理解为一个if-then决策规则的集合。
从决策树的根节点出发到每一个叶子节点的路径都对应一条相应的规则，每条路径上内部节点的特征对应着规则的条件,而路径上的叶子节点对应着决策结果。同时，该集合将特征空间分割为有限个不相交的子区域，落在同一区域的样本具有相同的预测值。

2、构建决策树的目的
为了使得分支节点所包含的样本尽可能属于同一类别,分类更加准确。决策树学习的算法一般通过递归选择最优特征，并利用该特征对训练数据集进行分割，使得分割后的每一个子集都有一个最优的分类过程。
3、决策树的优缺点
（1）优点：
①速度快
②准确性高
③可以处理连续字段和种类字段
④不需要任何领域知识和参数假设
⑤适合高维数据
（3）缺点：
①容易过拟合
②忽略属性之间的相关性
③各类别样本数量不一致的数据，特征选择偏向于取值较多的特征
4、决策树的典型生成算法
1、常用的特征选择有信息增益（CD3）,信息增益率(C4.5),基尼系数(CART)等。
通过特征选择的方法,选择最佳特征。从根结点开始,递归地产生决策树,不断法地选取局部最优的特征,将训练集分割成能够正确分类的子集。
2、基于信息增益的ID3算法
ID3算法是基于信息增益为度量指标的分类算法。信息增益使用了信息理论中的熵,熵表示的是信息的混乱程度,熵越小的时候信息越纯,说明分类的效果越好,所以在每个分裂节点选取熵值最小的特征,即选取信息增益最大的特征作为分裂节点。具体步骤如下。

3、基于信息增益的ID3算法
在这里插入图片描述
4、基于信息增益的C4.5算法

选择具有最大信息增益率的特征变量作为分裂节点，直到叶子节点的结果类别是唯一的，即建立了一棵决策树。
5、基于Gini系数的CART算法
CART分类树是基于Gini系数的分类算法, Gini系数可以看作是熵的近似替代,表示了数据集的不确定性,系数越大,不确定性越大,所以选择Gini系数最小的特征变量作为最佳分裂节点。
在这里插入图片描述
(3)选择Gini系数最小的特征变量作为最佳分裂节点,分支的值为可以得到最小Gini系数的属性分类，生成两个分支。(4)重复以上步骤,直到达到分裂节点包含的类别唯一,可以生成CART分类树。
CART树连续变量与离散变量的处理
(1)如果特征值是连续值: CART的处理思想是连续特征值离散化。假如特征a有连续值m个,把他们从小到大进行排列。m个数值就有m-1个切分点,分别使用每个切分点把连续数值离散划分成两类,将节点数据集按照划分点分为D1和D2子集,然后计算每个划分点下对应的Gini系数,对比所有Gini系数,选择值最小的一个划作为最终的特征划分。
在这里插入图片描述
(2）如果特征值是离散值：
CART决策树要求，无论离散特征值有几个，在节点上都划分成二叉树。还是假设特征a有m个离散值。分类标准是：每一次将其中一个特征分为一类，其它非该特征分为另外一类。依照这个标准遍历所有的分类情况,计算每种分类下的Gini系数,最后选择值最小的一个作为最终的特征划分。
在这里插入图片描述
不同决策树算法的比较

5、算例

集成学习

(1)决策树在构建的过程中比较复杂,在数据处理上很难实现泛化,当数据出现干扰时，将会对树的生成产生很大的影响,比如过拟合现象的发生。
单个决策树极其的不稳定，通常在研究过程中发现，决策树的生成经常能够达到局部的最优，但是很难达到全局的最优。
这也就要求在研究的过程中不能只依靠单个决策树,应该采用集成的思想,使用多个分类器,最后综合每个分类器的结果,以便于能够得到更加合适的分类器。
(2)集成理论最早起源于Kearns and Valiant (1989)提出的强学习和弱学习的等价原理,其核心思想是将多个分类器模型组合在一起,得到一个具有更好泛化能力的强学习器模型，也可以把集成学习算法看成是将不同专家的决定通过一定的方法融合为一个结果，此时得到的多个专家进行判断的结果更加具有权威性。
这里所说的方法在集成学习算法中常用的是平均法和投票法。
集成算法主要包含三类：Bagging、Boosting和Stacking。
①Bagging方法:从数据集中多次重复采样,独立的训练多个分类器,最终得到多个分类结果，再采用投票法得到结果最多的分类。代表模型：随机森林。
②Boosting方法：不断构建新模型，新模型更加关注前一个模型中被错误分类的样本,最终根据分类好的结果进行加权组合得到结果。代表模型: AdaBoost、 GBDT、XGBoost。
③Stacking方法：不是常用的方法，它属于分层的集成学习框架，即在形成最终预测前,从一组学习器向另一组学习器提供信息。在这里插入图片描述
1、随机森林：
（1）定义
随机森林是一种基于决策树、随机子空间和Bagging类集成学习思想的机器学习算法，简单来说，它是包含了多棵决策树的组合模型。
通过多个弱分类器(决策树)组成一个强分类器(随机森林)来提高模型的精度,随机体现在每棵决策树的生成过程中样本和特征都是随机选取的。
在这里插入图片描述
（3）优缺点：
优点：
①随机森林算法能解决分类与回归两种类型的问题，并在这两方面都有相当好的估计表现，且泛化性能优越。
②随机森林对于高维数据集的处理能力很好，并确定最重要的变量，因此被认为是一个不错的降维方法。此外,该模型还能够输出特征的重要性程度,这是一个非常实用的功能。
③可以应对缺失数据，不需要归一化即可直接使用。
④当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。
⑤训练速度快，高度并行化，易于分布式实现。
缺点：
①随机森林在解决回归问题时不能给出一个连续型的输出。当进行回归时，随机森林不能够做出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。
②随机森林几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。
③忽略特征之间的相关性，可能有很多相似的决策树，掩盖真实的结果。
在这里插入图片描述

猪猪想上树

关注

16
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

(2)集成理论最早起源于Kearns and Valiant (1989)提出的强学习和弱学习的等价原理,其核心思想是将多个分类器模型组合在一起,得到一个具有更好泛化能力的强学习器模型，也可以把集成学习算法看成是将不同专家的决定通过一定的方法融合为一个结果，此时得到的多个专家进行判断的结果更加具有权威性。信息增益使用了信息理论中的熵,熵表示的是信息的混乱程度,熵越小的时候信息越纯,说明分类的效果越好,所以在每个分裂节点选取熵值最小的特征,即选取信息增益最大的特征作为分裂节点。代表模型：随机森林。
复制链接

扫一扫