1. 决策树简介
不同于逻辑回归,决策树属于非线性模型,可以用于分类,也可用于回归。可以被认为是if-then规则的集合,以信息增益(信息增益比、基尼系数)为度量构建一个度量标准下降最快的树,每个节点都代表一个属性的判断,每个分支代表一个判断结果的输出,直到叶子节点只剩下同一类别的样本,最后每个叶节点代表一种分类结果。
决策树的学习包括三个重要过程:
(1)特征选择:常用的特征选择有信息增益、信息增益比、基尼系数等。
(2)生成过程:通过计算信息增益或者是其他指标,选择最佳特征。从根节点开始,
(3)剪枝过程:首先定义决策树的评价指标,对于所有的叶子节点,累加计算每个叶子节点中(样本数)和其(叶子节点熵值)的乘积,以叶子数目作为正则项。
2.决策树优缺点
2-1 优点
1. 可同时用于分类和回归任务,且可以处理多分类问题;
2. 不需要归一化,减少了数据预处理工作;
3. 自动筛选变量,容易解释和可视化决策过程;
4. 适合处理高维度数据。
2-2 缺点
1. 不稳定,泛化性能差;
2. 没有考虑变量之间的相关性,每次筛选都只考虑一个变量;
3. 只能线性分割数据;
4. 本质上是贪婪算法(可能找不到最优的树)。
3. 决策树算法简介
3-1 算法简介
1、ID3与C4.5采用信息熵作为选择准则的基础(ID3采用信息增益,C4.5采用信息增益率),CART选择基尼指数作为选择准则的基础(分类树采用基尼指数,回归树采用方差,用最小二乘法求解)。
2、ID3和C4.5只用于分类,CART可以用于分类与回归。
3、ID3和C4.5可以是多叉树,CART是二叉树。
4、ID3只能使用离散特征,C4.5和CART可以处理连续特征。
5、ID3不能处理缺失值,C4.5可以处理缺失值。
3-2 算法介绍
3-2-1 ID3
【机器学习】决策树-ID3算法_DonngZH的博客-CSDN博客
3-2-2 C4.5
【机器学习】决策树-C4.5算法_DonngZH的博客-CSDN博客
3-2-3 Gini
【机器学习】决策树-Gini指数_DonngZH的博客-CSDN博客