【机器学习】决策树

1. 决策树简介

        不同于逻辑回归,决策树属于非线性模型,可以用于分类,也可用于回归。可以被认为是if-then规则的集合,以信息增益(信息增益比、基尼系数)为度量构建一个度量标准下降最快的树,每个节点都代表一个属性的判断,每个分支代表一个判断结果的输出,直到叶子节点只剩下同一类别的样本,最后每个叶节点代表一种分类结果。

       决策树的学习包括三个重要过程:

        (1)特征选择:常用的特征选择有信息增益、信息增益比、基尼系数等。

        (2)生成过程:通过计算信息增益或者是其他指标,选择最佳特征。从根节点开始,

        (3)剪枝过程:首先定义决策树的评价指标,对于所有的叶子节点,累加计算每个叶子节点中(样本数)和其(叶子节点熵值)的乘积,以叶子数目作为正则项。

2.决策树优缺点

2-1 优点

        1. 可同时用于分类和回归任务,且可以处理多分类问题;

        2. 不需要归一化,减少了数据预处理工作;

        3. 自动筛选变量,容易解释和可视化决策过程;

        4. 适合处理高维度数据。

2-2 缺点

        1. 不稳定,泛化性能差;

        2. 没有考虑变量之间的相关性,每次筛选都只考虑一个变量;

        3. 只能线性分割数据;

        4. 本质上是贪婪算法(可能找不到最优的树)。

3. 决策树算法简介

3-1 算法简介

        1、ID3与C4.5采用信息熵作为选择准则的基础(ID3采用信息增益,C4.5采用信息增益率),CART选择基尼指数作为选择准则的基础(分类树采用基尼指数,回归树采用方差,用最小二乘法求解)。

        2、ID3和C4.5只用于分类,CART可以用于分类与回归。

        3、ID3和C4.5可以是多叉树,CART是二叉树。

        4、ID3只能使用离散特征,C4.5和CART可以处理连续特征。

        5、ID3不能处理缺失值,C4.5可以处理缺失值。

3-2 算法介绍

3-2-1 ID3

【机器学习】决策树-ID3算法_DonngZH的博客-CSDN博客

3-2-2 C4.5

【机器学习】决策树-C4.5算法_DonngZH的博客-CSDN博客

3-2-3 Gini

【机器学习】决策树-Gini指数_DonngZH的博客-CSDN博客​​​​​​​​​​​​​​

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值