机器学习理论公式推导及原理—决策树

机器学习公式推导及原理—决策树

根据西瓜书中的公式与内容来进行推导和实现

算法原理

从逻辑角度,一堆if else语句的组合从几何角度,根据某种准则划分特征空间。最终目的:将样本越分越“纯。

信息熵的概念

自信息:是指随机变量所含的信息。在这里插入图片描述
其中x指的是随机变量,每一个随机变量都会对应一个概率值。当b = 2时单位为bit,当b = e时单位为nat。
信息熵:信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定
在这里插入图片描述
计算信息熵时约定:若p(x)=0,则p(x)logb p(x)=0。当X的某个取值的概率为1
时信息熵最小、(最确定),其值为0;当X的各个取值的概率均等时信息熵最大(最不确
定),其值为logb「X|,其中|X|表示X可能取值的个数。

将样本类别标记y视作随机变量,各个类别在样本集合D中的占比pk(k=1,2,.,|y|)
视作各个类别取值的概率,则样本集合D(随机变量y)的信息熵(底数b取2)为

在这里插入图片描述

此时信息熵所代表的不确定性可以转化理解为集合内样本的纯度

条件熵的概念

条件熵(Y的信息熵关于概率分布X的期望):在已知X后Y的不确定性

在这里插入图片描述
从单个属性(特征)α的角度来看,假设其可能取值为{α2,α2,…,αv},D表示属性a取值为α∈{α,α2,…,αv}的样本集合,|Dv|/D表示占比,那么在已知属性α的取值后,样本集合D的条件熵为:
在这里插入图片描述

ID3决策树

在提出ID3决策树之前首先要引入信息增益的概念:

信息增益:在已知属性(特征)a的取值后y的不确定性减少的量,也即纯度的提升

在这里插入图片描述
ID3决策树:就是以信息增益为准则来划分属性的决策树
在这里插入图片描述

C4.5决策树

信息增益准则对可能取值数目较多的属性有所偏好(例如“编号"这个较为极端的例子,不过其本质原因不是取值数目过多,而是每个取值里面所包含的样本量太少),为减少这种偏好可能带来的不利影响,C4.5决策树选择使用"增益率"代替“信息增益”,增益率定义:在这里插入图片描述
其中:
在这里插入图片描述

称为属性α的“固有值",α的可能取值个数V越大,通常其固有值IV(α)也越大。但是增益率对可能取值数自较少的属性有所偏好(缺点)

本质上是对信息增益通过一项来进行平衡但还是通过信息熵来进行衡量
因此,C4.5决策树并未完全使用"增益率"代替“信息增益",而是采用一种启发式的方法:先选出信息增益高于平均水平的属性,然后再从中选择增益率最高的。

CART决策树

之前的决策树的生成本质上都是用信息熵作为衡量的标准,而CART决策树是采用另一种方式。

基尼值与基尼指数

基尼值:从样本集合D中随机抽取两个样本,其类别标记不一致的概率。因此,基尼值越小,碰到异类的概率就越小,纯度自然就越高。
在这里插入图片描述
属性a的基尼指数(类比信息熵和条件熵):
在这里插入图片描述
CART决策树:选择基尼系数最小的属性作为最优划分属性
在这里插入图片描述

实际构造算法

  • 首先,对每个属性α的每个可能取值,将数据集D分为α = v和α ≠v两部分来计算基尼指数,即

在这里插入图片描述
使得使用该算法构造出来的树本质上是一棵二叉树

  • 然后,选择基尼指数最小的属性及其对应取值作为最优划分属性和最优划分点;
  • 最后,重复以上两步,直至满足停止条件。

最终完成CART决策树的构造。

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
决策树算法是一种广泛应用于分类和回归的机器学习算法,它基于树形结构对样本进行分类或预测。决策树算法的主要思想是通过一系列的判断来对样本进行分类或预测。在决策树中,每个节点表示一个属性或特征,每个分支代表该属性或特征的一个取值,而每个叶子节点代表一个分类或预测结果。 决策树算法的训练过程主要包括以下步骤: 1. 特征选择:根据某种指标(如信息增益或基尼系数)选择最优的特征作为当前节点的分裂属性。 2. 决策树生成:根据选择的特征将数据集分成若干个子集,并递归地生成决策树。 3. 剪枝:通过剪枝操作来提高决策树的泛化性能。 决策树算法的优点包括易于理解和解释、计算复杂度较低、对缺失值不敏感等。但是,决策树算法也存在一些缺点,如容易出现过拟合、对离散数据敏感等。 下面是一个决策树算法的案例:假设我们要根据一个人的年龄、性别、教育程度和职业预测其收入水平(高于或低于50K)。首先,我们需要将这些特征进行编码,将其转换为数值型数据。然后,我们可以使用决策树算法对这些数据进行训练,并生成一个决策树模型。最后,我们可以使用该模型对新的数据进行分类或预测。例如,根据一个人的年龄、性别、教育程度和职业,我们可以使用决策树模型预测该人的收入水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序小旭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值