算法梳理（三）决策树

最新推荐文章于 2023-02-13 15:55:43 发布

Steven.

最新推荐文章于 2023-02-13 15:55:43 发布

阅读量495

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44025838/article/details/85214970

版权

1. 信息论基础

1.1 熵

熵是表示随机变量不确定性的度量。熵越大，变量包含的信息量越大，变量的不确定性也越大。一个事物内部会存在随机性，也就是不确定性，而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息，任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理，信息与信号处理的应用都是一个消除不确定性的过程。
在这里插入图片描述

1.2 条件熵

条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
在这里插入图片描述
条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X)，即H(Y|X)=H(X,Y)−H(X)。

1.3 联合熵

联合熵就是度量一个联合分布的随机系统的不确定度。如果X，Y是一对离散型变量X，Y～p(x，y)，X，Y的联合熵，H（X，Y）定义为：
在这里插入图片描述

1.4 信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，在分类中是一种衡量样本特征重要性的方法，直观的理解是有无样本特征对分类问题的影响的大小。信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。假设某个状态下系统的信息熵为H(Y)，再引入某个特征X后的信息熵为H(Y|X)，则特征X的信息增益定义为：
在这里插入图片描述

1.5 基尼不纯度

基尼不纯度是从一个数据集中随机选取子项，度量其被错误的划分到其他组里的概率。简单来讲基尼不纯度是一个随机事件变成它的对立事件的概率。基尼不纯度也可以作为衡量系统混乱程度的标准。基尼不纯度越小，纯度越高，集合的有序程度越高，分类的效果越好。维基上的公式是这样的：
在这里插入图片描述

2. 决策树原理

决策树（decision tree）也称为分类树（分类）或者回归树（数值预测）。是一种有监督的机器学习算法，是一个分类算法。在给定训练集的条件下，生成一个自顶而下的决策树，树的根为起点，树的叶子为样本的分类，从根到叶子的路径就是一个样本进行分类的过程。

决策树由结点和有向边组成。结点有两种类型：内部节点和叶节点，内部节点表示一个特征或属性，叶节点表示一个类。分类的时候，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子结点；此时，每一个子结点对应着该特征的一个取值。如此递归向下移动，直至达到叶结点，最后将实例分配到叶结点的类中。

决策树可以看成一个if-then规则的集合：由决策树的根结点到叶结点的每一条路径构建一条规则；路径上的内部结点的特征对应着规则的条件，而叶结点对应着分类的结论。决策树的路径和其对应的if-then规则集合是等效的

最低0.47元/天解锁文章

Steven.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
算法梳理（三）决策树

目录1. 信息论基础1.1 熵1.2 条件熵1.3 联合熵1.4 信息增益1.5 基尼不纯度2. 决策树原理3. 决策树的不同分类算法3.1 ID3算法3.2 C4.5算法3.3 CART算法4. 决策树防止过拟合手段5. 模型评估6. sklearn参数1. 信息论基础1.1 熵熵是表示随机变量不确定性的度量。熵越大，变量包含的信息量越大，变量的不确定性也越大。一个事物内部会存在随机性，也...
复制链接

扫一扫