决策树总结

human-explainable
multiclass
categorical features
missing features
efficient non-linear training and testing

决策树的path view 与 recursive view: 每个树都可以看作根节点与子树的组合.
叶节点通常为optimal constant, 即大多数实例所在的分类标签, 或者平均输出值(回归树).

决策树分配流程: 从根节点开始, 对实例的某一特征进行测试, 根据测试结果, 将实例分配到其子节点; 这时, 每一个子节点对应着该特征的一个取值. 如此递归地对实例进行测试并分配, 直至达到叶节点, 最后将实例分到叶节点的类中.

决策树学习: 本质是从训练数据集中归纳出一组分类规则. 通常用启发式方法, 近似求解损失函数最小化问题, sub-optimal

特征选择: 递归选择
决策树生成: 模型的局部选择, 考虑局部最优
剪枝: 模型的全局选择, 考虑全局最优

开始, 构建根节点, 所有训练数据都在根节点内.
根据一个最优特征分割成子集:
*如果有些子集已经能够被基本正确的分类, 则构建叶节点分配
*不能的就选择新的最优特征, 继续分割
递归进行直至
*所有训练子集都被基本正确分类
*没有合适特征为止.

特征选择的常用准则: ID3信息增益(大), C4.5信息增益比(大), CART基尼指数(小)
理解: 特征选择是一种purifying的过程, 基尼指数是1-纯度=不纯度, 选基尼指数最小的就是选不纯度最低的特征.
理解熵: 描述随机变量的不确定性, 熵越大, 不确定性越大.
条件熵H(Y|X): 在已知随机变量X的情况下, 随机变量Y的不确定性
经验熵和条件经验熵: 是熵和条件熵中的概率值由数据估计得到(通常是极大似然估计)
信息增益=H(D)-H(D|A), 由于特征A而使得对数据集D的分类的不确定性减少的程度. 所以越大分类能力越强, 结果纯度越高.
信息增益比=信息增益/训练集D关于特征A的熵, 解决”存在偏向选择取值较多的特征的问题”

overfit原因: 学习时过多地考虑如何提高对训练数据的正确分类, 从而构建出过于复杂的决策树. low-level trees build with small 数据集
剪枝原理: 最小化整体的损失函数: 预测误差+参数(validation法选择)*复杂度(regularizer:叶节点数量)
不容易穷举所有可能, 用one-leaf removed

CART剪枝算法: T0是fully-grown tree也为当前最优树.
通过比较参数alpha和g(t)不断生成参数序列及相应的最优子树序列
利用独立的验证数据集测试子树序列的基尼指数或者平均误差.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值