机器学习算法第九篇
主要内容:决策树+损失函数+剪枝算法(此剪枝算法只适用于ID3于C4.5)
剪枝目的:
- 解决决策树过拟合问题
决策树过拟合:
- 根据ID3与C4.5的算法我们可以知道,决策树依据信息增益或信息增益比在不断的迭代生产新的子节点,直到不能继续下去为止
这个过程中,算法只考虑当前节点的特征选择与数据的划分,并无对树形结构复杂度的考虑,然后生成一颗非常复杂的树,
这种树可能会得出对训练数据分类非常准确,却对测试数据不太准确的决策树,这种情况称为过拟合
剪枝算法实现:
- 通过对上述复杂的树进行整体剪枝处理,可以减少复杂度,平衡模型对训练集的预测误差与模型的复杂度,达到两者同时最小
损失函数:
- 设 树 T 的 叶 子 节 点 的 个 数 为 ∣ T ∣ 设树T的叶子节点的个数为\vert T\vert 设树T的叶子节点的个数为∣T∣
- t 是 树 T 的 叶 子 节 点 t是树T的叶子节点 t是树T的叶子节点
- 该 节 点 有 N t 个 样 本 该节点有N_t个样本 该节点有Nt个样本
- 其 中 k 类 的 样 本 点 有 N t k 个 , k = 1 , 2 , 3... , K 其中k类的样本点有N_{tk}个,k=1,2,3...,K 其中k类的样本点有Ntk个,k=1,2,3...,K
- H t ( T ) 为 叶 子 节 点 t 上 的 熵 H_t(T)为叶子节点t上的熵