kNN 、决策树

最新推荐文章于 2023-06-06 22:02:56 发布

weixin_45170671

最新推荐文章于 2023-06-06 22:02:56 发布

阅读量293

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45170671/article/details/103060142

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第二章 k-近邻算法（kNN）

**
**

（1）概述

     	 简单的说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

（2）基本原理

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的
特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们
只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。
最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

（3）优缺点

在这里插入图片描述

（4）k-近邻算法的一般流程

在这里插入图片描述

实施kNN算法

伪代码
对未知类别属性的数据集中的每个点依次执行以下操作：
(1) 计算已知类别数据集中的点与当前点之间的距离；
(2) 按照距离递增次序排序；
(3) 选取与当前点距离最小的k个点；
(4) 确定前k个点所在类别的出现频率；
(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。

kNN算法

在这里插入图片描述

实战：约会网站配对效果

（1）准备数据：从文本文件中解析数据

在这里插入图片描述

（2）分析数据：使用 Matplotlib 创建散点图

在这里插入图片描述

(3)准备数据：归一化数值

在这里插入图片描述

（4）测试算法：作为完整程序验证分类器

在这里插入图片描述

（5）使用算法：构建完整可用系统

在这里插入图片描述

第三章决策树

（1）概述

机器学习中，决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。

（2）优缺点

在这里插入图片描述

3.1构造决策树

原理

在构造决策树时，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类
时起决定性作用。为了找到决定性的特征，划分出最好的结果，我们必须评估每个特征。完成测
试之后，原始数据集就被划分为几个数据子集。这些数据子集会分布在第一个决策点的所有分支
上。如果某个分支下的数据属于同一类型，则当前无需阅读的垃圾邮件已经正确地划分数据分类，
无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型，则需要重复划分数据子
集的过程。如何划分数据子集的算法和划分原始数据集的方法相同，直到所有具有相同类型的数
据均在一个数据子集内。

创建分支的伪代码函数createBranch()如下所示：
在这里插入图片描述

决策树的一般流程

(1) 收集数据：可以使用任何方法。
(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。
(3) 分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。
(4) 训练算法：构造树的数据结构。
(5) 测试算法：使用经验树计算错误率。
(6) 使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据
的内在含义。

3.1.1信息增益

划分数据集的大原则是：将无序的数据变得更加有序。
在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。在可以评测哪种数据划分方式是最好的数据划分之前，我们必须学习如何计算信息增益。集合信息的度量方式称为香农熵或者简称为熵。
在这里插入图片描述

计算给定数据集的香农熵

在这里插入图片描述

3.1.2 划分数据集

分类算法除了需要测量信息熵，还需要划分数据集，度量划分数据集的熵，以便判断当前是否正确地划分了数据集。我们将对每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据集是最好的划分方式。
在这里插入图片描述

3.1.3 递归构建决策树

在这里插入图片描述

3.2 在 Python 中使用 Matplotlib 注解绘制树形图

字典的表示形式非常不易于理解，而且直接绘制图形也比较困难。本节我们将使用Matplotlib库创建树形图。决策树的主要优点就是直观易于理解，如果不能将其直观地显示出来，就无法发挥其优势。虽然前面章节我们使用的图形库已经非常强大，但是Python并没有提供绘制树的工具，因此我们必须自己绘制树形图。

3.2.1 Matplotlib 注解

在这里插入图片描述

3.2.2 构造注解树

获取叶节点的数目和树的层数
在这里插入图片描述

总结：由于好久没用过python，所以现在写起来有些吃力，特别是字典这部分的知识。决策树后边的知识在后边这几天再陆续补充=。=

weixin_45170671

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kNN 、决策树

第二章 k-近邻算法（kNN）****（1）概述简单的说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。（2）基本原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分...
复制链接

扫一扫