二、机器学习基础12（类别不平衡、决策树）

最新推荐文章于 2024-03-03 23:19:24 发布

满满myno

最新推荐文章于 2024-03-03 23:19:24 发布

阅读量931

点赞数 2

分类专栏：深度学习(上) 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_53832681/article/details/124281012

版权

深度学习(上) 专栏收录该内容

46 篇文章 2 订阅

订阅专栏

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。

产生原因：
通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大，则会影响学习结果，测试结果变差。

常见的类别不平衡问题解决方法：

1 、扩大数据集

2 、对大类数据欠采样（缺点：欠采样操作时若随机丢弃大类样本，可能会丢失重要信息。）

代表算法：EasyEnsemble

3 、对小类数据过采样

代表算法：SMOTE 和 ADASYN

4 、使用新评价指标

5 、选择新算法

6 、数据代价加权

7 、转化问题思考角度

8 、将问题细化分析

决策树

决策树是一种分而治之(Divide and Conquer)的决策过程。一个困难的预测问题, 通过树的分支节点, 被划分成两个或多个较为简单的子集，从结构上划分为不同的子问题。将依规则分割数据集的过程不断递归下去(Recursive Partitioning)。随着树的深度不断增加，分支节点的子集越来越小，所需要提的问题数也逐渐简化。当分支节点的深度或者问题的简单程度满足一定的停止规则(Stopping Rule)时, 该分支节点会停止劈分，此为自上而下的停止阈值(Cutoff Threshold)法；有些决策树也使用自下而上的剪枝(Pruning)法。

决策树的三要素：

特征选择、决策树生成、剪枝（预剪枝和后剪枝）

决策树算法优缺点

决策树算法的优点：
1、理解和解释起来简单，决策树模型易想象。
2、相比于其他算法需要大量数据集而已，决策树算法要求的数据集不大。
3、决策树算法的时间复杂度较小，为用于训练决策树的数据点的对数。
4、相比于其他算法智能分析一种类型变量，决策树算法可处理数字和数据的类别。
5、能够处理多输出的问题。
6、对缺失值不敏感。
7、可以处理不相关特征数据。
8、效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度

决策树算法的缺点：
1、对连续性的字段比较难预测。
2、容易出现过拟合。
3、当类别太多时，错误可能就会增加的比较快。 4、信息缺失时处理起来比较困难，忽略了数据集中属性之间的相关性。
5、在处理特征关联性比较强的数据时表现得不是太好。
6、对于各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。

满满myno

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
1
评论
二、机器学习基础12（类别不平衡、决策树）

类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。产生原因：通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大，则会影响学习结果，测试结果变差。常见的类别不平衡问题解决方法：1 、扩大数据集2 、对大类数据欠采样（缺点：欠采样操作时若随机丢弃大类样本，可能会丢失重要信息。）代表算法：EasyEnsemble3 、对小类数据过采样代表算法：SMOTE 和 ADASYN4 、使用新评价指
复制链接

扫一扫