决策树打卡_决策树基本算法中,哪种情形不会导致递归返回-CSDN博客

本文链接：https://blog.csdn.net/zgpttt521/article/details/108170876

决策树是一个递归过程。在决策树算法中，有三种情况会导致递归返回：
1，当所有结点包含的样本属性全属于同一类别，无需划分；
2，当前属性集为空，或者所有样本在所有属性上取值相同，无法划分；
3，当前结点包含的样本集合为空，不能划分。

决策过程其实就是不断划分的过程。我们是希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的’纯度‘会越来越高。

ID3算法
信息增益
信息增益的意思就是指某条信息对整体的增幅情况。简单可以理解为该信息的权重。通常我们会用‘**信息熵’**来度量样本集合的纯度。
信息增益越大，表示使用该属性划分样本集D的效果越好，因此ID3算法在递归过程中，每次选择最大信息增益的属性作为当前的划分属性。

C4.5算法
增益率
ID3算法存在一个问题，就是偏向于取值数目较多的属性，例如：如果存在一个唯一标识，这样样本集D将会被划分为|D|个分支，每个分支只有一个样本，这样划分后的信息熵为零，十分纯净，但是对分类毫无用处。因此C4.5算法使用了“增益率”（gain ratio）来选择划分属性，来避免这个问题带来的困扰。首先使用ID3算法计算出信息增益高于平均水平的候选属性，接着C4.5计算这些候选属性的增益率。

CART算法
基尼指数
CART决策树使用“基尼指数”（Gini index）来选择划分属性，基尼指数反映的是从样本集D中随机抽取两个样本，其类别标记不一致的概率，因此Gini(D)越小越好。

评估指的是性能度量，即决策树的泛化性能。之前提到：可以使用测试集作为学习器泛化性能的近似，因此可以将数据集划分为训练集和测试集。预剪枝表示在构造数的过程中，对一个节点考虑是否分支时，首先计算决策树不分支时在测试集上的性能，再计算分支之后的性能，若分支对性能没有提升，则选择不分支（即剪枝）。后剪枝则表示在构造好一颗完整的决策树后，从最下面的节点开始，考虑该节点分支对模型的性能是否有提升，若无则剪枝，即将该节点标记为叶子节点，类别标记为其包含样本最多的类别。

Bagging 和Boosting
所谓的集成学习，就是用多重或多个弱分类器结合为一个强分类器，从而达到提升分类方法效果。严格来说，集成学习并不算是一种分类器，而是一种分类器结合的方法。

1.bagging
bagging算是很基础的集成学习的方法，他的提出是为了增强分类器效果，但是在处理不平衡问题上却有很好的效果。
2.boosting
类似于bagging集成学习，boosting也是通过重采样得到多个弱分类器，最后得到一个强分类器。区别是boosting是基于权值的弱分类器集成。

学习参考网址https://blog.csdn.net/qq_24753293/article/details/81067692?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159808725519195265913564%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159808725519195265913564&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_ecpm_v3~pc_rank_v2-2-81067692.first_rank_ecpm_v3_pc_rank_v2&utm_term=Bagging+%E5%92%8CBoosting&spm=1018.2118.3001.4187

随机森林，XGBoost原理
随机森林的集成学习方法是bagging ，但是和bagging 不同的是bagging只使用bootstrap有放回的采样样本，但随机森林即随机采样样本，也随机选择特征，因此防止过拟合能力更强，降低方差。
Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。