决策树总结

最新推荐文章于 2021-12-19 20:15:53 发布

xu2618

最新推荐文章于 2021-12-19 20:15:53 发布

阅读量338

点赞数

分类专栏：机器学习文章标签：决策树

本文链接：https://blog.csdn.net/xu2618/article/details/58261191

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

human-explainable
multiclass
categorical features
missing features
efficient non-linear training and testing

决策树的path view 与 recursive view: 每个树都可以看作根节点与子树的组合.
叶节点通常为optimal constant, 即大多数实例所在的分类标签, 或者平均输出值(回归树).

决策树分配流程: 从根节点开始, 对实例的某一特征进行测试, 根据测试结果, 将实例分配到其子节点; 这时, 每一个子节点对应着该特征的一个取值. 如此递归地对实例进行测试并分配, 直至达到叶节点, 最后将实例分到叶节点的类中.

决策树学习: 本质是从训练数据集中归纳出一组分类规则. 通常用启发式方法, 近似求解损失函数最小化问题, sub-optimal

特征选择: 递归选择
决策树生成: 模型的局部选择, 考虑局部最优
剪枝: 模型的全局选择, 考虑全局最优

开始, 构建根节点, 所有训练数据都在根节点内.
根据一个最优特征分割成子集:
*如果有些子集已经能够被基本正确的分类, 则构建叶节点分配
*不能的就选择新的最优特征, 继续分割
递归进行直至
*所有训练子集都被基本正确分类
*没有合适特征为止.

特征选择的常用准则: ID3信息增益(大), C4.5信息增益比(大), CART基尼指数(小)
理解: 特征选择是一种purifying的过程, 基尼指数是1-纯度=不纯度, 选基尼指数最小的就是选不纯度最低的特征.
理解熵: 描述随机变量的不确定性, 熵越大, 不确定性越大.
条件熵H(Y|X): 在已知随机变量X的情况下, 随机变量Y的不确定性
经验熵和条件经验熵: 是熵和条件熵中的概率值由数据估计得到(通常是极大似然估计)
信息增益=H(D)-H(D|A), 由于特征A而使得对数据集D的分类的不确定性减少的程度. 所以越大分类能力越强, 结果纯度越高.
信息增益比=信息增益/训练集D关于特征A的熵, 解决”存在偏向选择取值较多的特征的问题”

overfit原因: 学习时过多地考虑如何提高对训练数据的正确分类, 从而构建出过于复杂的决策树. low-level trees build with small 数据集
剪枝原理: 最小化整体的损失函数: 预测误差+参数(validation法选择)*复杂度(regularizer:叶节点数量)
不容易穷举所有可能, 用one-leaf removed

CART剪枝算法: T0是fully-grown tree也为当前最优树.
通过比较参数alpha和g(t)不断生成参数序列及相应的最优子树序列
利用独立的验证数据集测试子树序列的基尼指数或者平均误差.

xu2618

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树总结

human-explainable multiclass categorical features missing features efficient non-linear training and testing决策树的path view 与 recursive view: 每个树都可以看作根节点与子树的组合. 叶节点通常为optimal constant, 即大多数实例所在的分类标
复制链接

扫一扫

专栏目录