算法梳理(三)决策树

1. 信息论基础

1.1 熵

熵是表示随机变量不确定性的度量。熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。
在这里插入图片描述

1.2 条件熵

条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
在这里插入图片描述
条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即H(Y|X)=H(X,Y)−H(X)。

1.3 联合熵

联合熵就是度量一个联合分布的随机系统的不确定度。如果X,Y是一对离散型变量X,Y~p(x,y),X,Y的联合熵,H(X,Y)定义为:
在这里插入图片描述

1.4 信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度,在分类中是一种衡量样本特征重要性的方法,直观的理解是有无样本特征对分类问题的影响的大小。信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。假设某个状态下系统的信息熵为H(Y),再引入某个特征X后的信息熵为H(Y|X),则特征X的信息增益定义为:
在这里插入图片描述

1.5 基尼不纯度

基尼不纯度是从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。简单来讲基尼不纯度是 一个随机事件变成它的对立事件的概率。基尼不纯度也可以作为衡量系统混乱程度的标准。基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好。维基上的公式是这样的:
在这里插入图片描述

2. 决策树原理

决策树(decision tree)也称为分类树(分类)或者回归树(数值预测)。是一种有监督的机器学习算法,是一个分类算法。在给定训练集的条件下,生成一个自顶而下的决策树,树的根为起点,树的叶子为样本的分类,从根到叶子的路径就是一个样本进行分类的过程。

决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至达到叶结点,最后将实例分配到叶结点的类中。

决策树可以看成一个if-then规则的集合:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上的内部结点的特征对应着规则的条件,而叶结点对应着分类的结论。决策树的路径和其对应的if-then规则集合是等效的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值