分类问题（部分）

最新推荐文章于 2023-07-16 16:37:29 发布

青玄叶鹤

最新推荐文章于 2023-07-16 16:37:29 发布

阅读量365

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45678985/article/details/104045443

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

分类问题（部分）

分类问题：

是监督学习的一个核心问题，它从数据中学习一个分类决策函数或分类模型（分类器（classifier))对新的输入进行输入预测，输出变量取有限个离散值。
（监督学习就像是先做模拟试卷（带答案），再做测试试题，查看测试实体的完成程度）

分类：
1.二分类（是与不是）
2.多分类（分成很多类）

决策树（decision tree)

是一个树结构，每个非叶节点表示一个特征属性，每个分支边代表这个特征属性在某个值域上的输出，每个叶节点存放一个类别。

决策过程

从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。
示例：假如我买了一个西瓜，它的特点使纹理清晰，根茎用听，如何根据下面的决策树判断是好瓜还是坏瓜？
在这里插入图片描述
给定训练数据，如何构建决策树呢？
1.特征选择：选取对训练数据具有分类能力的特征
2.决策树生成：在决策树各个点上按照一定方法选择特征，递归构建决策树
3.决策树剪枝：在已生成的树上减掉一些子树或者叶节点，从而简化分类树模型

决策树核心算法：ID3算法，C4.5算法及CART算法

决策树特征选择
决策树构建过程中的特征选择是非常重要的一步，特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。

信息熵：表示随机变量的不确定性，熵越大，不确定性越大
信息增益：信息增益 = 信息熵（前）- 信息熵（后）
信息增益比：信息增益比 = 惩罚参数*信息增益
特征参数个数较多时，惩罚参数较大
（信息增益比较信息增益更具客观性）
基尼系数：表示集合的不确定性，基尼系数越大，表示不平等程度越高

决策树剪枝：
在生成树的过程中，如果没有剪枝（pruning)操作，就会生成一个对训练集完全拟合的决策树，但这是对训练集非常不友好的，泛化能力不行，因此，需要减掉一些枝叶，使得模型泛化能力更强。

理想的决策树有三种：
叶子节点数最少
叶子节点深度最小
叶子节点数最小且叶子节点深度最小

剪枝方法：

预剪枝：通过提前停止树的构建而对树剪枝，一旦停止，节点就是叶子，该叶子持有子集中最频繁的类
（1）定义一个高度，当决策树达到该高度时就停止生长
（2）达到某个节点的实例具有相同的特征向量
（3）定义一个阈值（实例个数，系统性能增益等）
后剪枝方法：首先构造完整的决策树，然后对那些置信度不够的结点子树用叶子结点来代替，该叶子的类标号用该结点子树中最频繁的类标记
（相比于预剪枝，后剪枝更常用，因为在预剪枝方法中精确地估计何时停止树增长很困难）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。