机器学习---决策树算法梳理

本文详细梳理了决策树算法,涵盖信息论基础,如熵、信息增益和基尼不纯度,以及ID3、C4.5、CART等分类算法的原理和应用场景。还讨论了决策树防止过拟合的方法、模型评估技巧,以及如何使用sklearn库进行参数调整和绘制决策树。
摘要由CSDN通过智能技术生成

任务3 - 决策树算法梳理

1、信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

(1)熵: 表示随机变量不确定性的度量。
在这里插入图片描述
(2)联合熵 :一组变量之间不确定性的衡量手段。
两个变量:
在这里插入图片描述
多个变量:
在这里插入图片描述

(3)条件熵 :表示在已知随机变量X的条件下随机变量Y的不确定性。
在这里插入图片描述
(4)信息增益 :表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
(5)基尼不纯度:是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。在进行决策树编程的时候,可以作为衡量系统混乱程度的标准。

2.决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值