机器学习算法9_决策树+剪枝(适用ID3与C4.5)

本文介绍了决策树过拟合问题及其解决方案——剪枝算法,特别是针对ID3和C4.5算法的剪枝。通过损失函数平衡模型复杂度和预测误差,以达到最小化的效果。剪枝过程包括计算每个叶子节点的损失函数,并根据比较结果进行修剪,生成损失函数最小的子树。
摘要由CSDN通过智能技术生成

机器学习算法第九篇
主要内容:决策树+损失函数+剪枝算法(此剪枝算法只适用于ID3于C4.5)



剪枝目的:
  • 解决决策树过拟合问题


决策树过拟合:
  • 根据ID3与C4.5的算法我们可以知道,决策树依据信息增益或信息增益比在不断的迭代生产新的子节点,直到不能继续下去为止
    这个过程中,算法只考虑当前节点的特征选择与数据的划分,并无对树形结构复杂度的考虑,然后生成一颗非常复杂的树,
    这种树可能会得出对训练数据分类非常准确,却对测试数据不太准确的决策树,这种情况称为过拟合


剪枝算法实现:
  • 通过对上述复杂的树进行整体剪枝处理,可以减少复杂度,平衡模型对训练集的预测误差与模型的复杂度,达到两者同时最小


损失函数:
  • 设 树 T 的 叶 子 节 点 的 个 数 为 ∣ T ∣ 设树T的叶子节点的个数为\vert T\vert TT
  • t 是 树 T 的 叶 子 节 点 t是树T的叶子节点 tT
  • 该 节 点 有 N t 个 样 本 该节点有N_t个样本 Nt
  • 其 中 k 类 的 样 本 点 有 N t k 个 , k = 1 , 2 , 3... , K 其中k类的样本点有N_{tk}个,k=1,2,3...,K kNtk,k=1,2,3...,K
  • H t ( T ) 为 叶 子 节 点 t 上 的 熵 H_t(T)为叶子节点t上的熵
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值