机器学习--决策树

决策树学习过程

  1. 特征选择
  2. 决策树生成: 递归结构, 对应于模型的局部最优
  3. 决策树剪枝: 缩小树结构规模, 缓解过拟合, 对应于模型的全局选择

决策树的优缺点

优点:

  1. 决策树易于理解和解释,可以可视化分析,容易提取出规则
  2. 可以同时处理标称型和数值型数据。
  3. 比较适合处理有缺失属性的样本。
  4. 能够处理不相关的特征
  5. 测试数据集时,运行速度比较
  6. 相对短的时间内能够对大型数据源做出可行且效果良好的结果。
    缺点:
  7. 决策树容发生过拟合,但是随机森林可以很大程度上减少过拟合。
  8. 决策树容易忽略数据集中属性的相互关联
  9. 对于那些各类别样本数量不一致的数据,在决策树中,进行属性划分时,不同的判定准则会带来不同的属性选择倾向。

决策树停止分类条件

  1. 当前属性是纯的:当前结点包含的样本全属于同一类别,无需划分
  2. 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;例如:所有的样本特征都是一样的,就造成无法划分了,训练集太单一。
  3. 当前结点包含的样本集合为空,不能划分。

决策树算法

1. ID3算法
在这里插入图片描述
解释:在根节点处计算信息熵(描述不确定程度/纯度),然后根据属性依次划分并计算其节点的信息熵,用根节点信息熵–属性节点的信息熵=信息增益,根据信息增益进行降序排列,排在前面的就是第一个划分属性,其后依次类推,这就得到了决策树的形状,也就是怎么“长”了。
缺点:对可取值数目较多的属性有所偏好,例如:考虑将“编号”作为一个属性。这就引出了另一个 算法C4.5

2. C4.5
为了解决信息增益的问题,引入一个信息增益率(越大越好):
在这里插入图片描述
属性a的可能取值数目越多(即V越大),则IV(a)的值通常就越大
信息增益比本质: 是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时,惩罚参数较小;特征个数较少时,惩罚参数较大。
缺点:信息增益比偏向取值较少的特征。
使用信息增益比:基于以上缺点,并不是直接选择信息增益率最大的特征,而是现在候选特征中找出信息增益高于平均水平的特征,然后在这些特征中再选择信息增益率最高的特征。

3.CART算法

表示纯度的方法,叫做基尼指数(讨厌的公式):
在这里插入图片描述表示在样本集合中一个随机选中的样本被分错的概率。举例来说,现在一个袋子里有3种颜色的球若干个,伸手进去掏出2个球,颜色不一样的概率,这下明白了吧。Gini(D)越小,数据集D的纯度越高
三种算法比较:
ID3:取值多的属性,更容易使数据更纯,其信息增益更大。训练得到的是一棵庞大且深度浅的树:不合理。
C4.5:采用信息增益率替代信息增益。
CART:基尼系数替代熵,最小化不纯度,而不是最大化信息增益。

作者:CDA数据分析师培训
链接:https://www.jianshu.com/p/718047645ff5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值