机器学习-决策树

最新推荐文章于 2022-11-06 23:58:41 发布

joinpeng

最新推荐文章于 2022-11-06 23:58:41 发布

阅读量318

点赞数

文章标签：决策树算法机器学习 python

本文链接：https://blog.csdn.net/weixin_55493324/article/details/115185010

版权

决策树分类

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
决策树用于对新样本的分类，是通过决策树对新样本属性值的测试，从树的根结点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶结点，该叶结点表示的类别就是新样本的类别。

决策树分类算法，及其原理

决策树常用的算法有：

ID3
ID3算法使用信息增益为准则来选择划分属性
根据样本子集属性取值的信息增益值的大小来选择决策属性，并根据该属性的不同取值生成决策树的分支，再对子集进行递归调用该方法，当所有子集的数据都只包含于同一个类别时结束。最后，根据生成的决策树模型，对新的、未知类别的数据对象进行分类。
优点:
ID3算法的优点就是方法简单、计算量小、理论清晰、学习能力较强、比较适用于处理规模较大的学习问题。
缺点:
1.ID3没有考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。
2.ID3采用信息增益大的特征优先建立决策树的节点。在相同条件下，比如一个特征有2个分支，另一个特征为3个分支，取值比较多的特征比取值少的特征信息增益大。其实他们都是完求不确定的变量，但是3个取值的比2个取值的信息增益大
3.ID3算法对于缺失值的情况没有做考虑
4.没有考虑过拟合的问题
C4.5
C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：
1.用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2.在树构造过程中进行剪枝；
3.能够完成对连续属性的离散化处理；
4.能够对不完整数据进行处理。
优点: 产生的分类规则易于理解，准确率较高。
缺点: 在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

joinpeng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习-决策树

决策树分类决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树用于对新样本的分类，是通过决策树对新样本属性值的测试，从树的根结点开始，按照样本属性的取值，逐渐沿着决策树向下，直到树的叶结点，该叶结点表示的类别就是新样本的类别。决策树分类算法，及其原理决策树常用的算法有三种：ID3ID3算法使用信息增益为准则来选择划分属性根据样本子集属性取值的信息增益值的大小来选择决策属性，并根据该属性的不同取值生成决策树的分支，再对子集进行递
复制链接

扫一扫