决策树与随机森林

本文从LR到决策树,详细介绍了决策树模型的总体流程、核心数学概念,包括信息量、熵,以及ID3、C4.5、CART三种决策树学习算法。讨论了决策树的过拟合问题和剪枝策略,最后引入了Bootstraping、Bagging和随机森林的概念,解释了随机森林的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从LR到决策树

思考一下一个分类问题:是否去相亲,logistic回归的解决办法可能是这样的

可是有时候,人更直观的方式是这样的

决策树模型

(决策树)分类决策树 模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(intemal node)和叶结点(leaf node).内部结点表示一个特征或属性,叶结点表示一个类
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点:这时,每一个子结点对应着该特征的一个取值.如此递归地对实例进行测试并分配,直至达到叶结点.最后将实例分到叶结点的类中.
下图是一个决策树的示意图,图中圆和方框分别表示内部结点和叶结点.

决策树基于“树”结构进行决策

  • 每个“内部结点”对应于某个属性上的‘“测试”
  • 每个分支对应于该测试的一种可能结果(即该属性的某个取值)
  • 每个“叶结点”对应于一个“预测结果”

学习过程:通过对训练样本的分析来确定‘‘划分属性”(即内部结点所对应的属性)
预测过程:将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点

总体流程

“分而治之”(divide- and-conquer)
自根至叶的递归过程
在每个中间结点寻找一个“划分”(split or test)属性

三种停止条件

  • 当前结点包含的样本全属于同一类别,无需划分;
  • 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;
  • 当前结点包含的样本集合为空,不能划分。

伪代码

核心数学概念

定义信息量

  • 某事件发生的概率小,则该事件的信息量大。
  • 如果两个事件X和Y独立,即p(xy)=p(x)p(y) ,假定X和Y的信息量分别为h(X)和h(Y),则二者同时发生的信息量应该为h(XY)=h(X)+h(Y)。

定义随机变量X的概率分布为p(x),从而定义X信息量: h ( x ) = − l o g 2 p ( x ) h(x)=-log_2p(x) h(x)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值