分类问题(部分)

分类问题(部分)

分类问题:

是监督学习的一个核心问题,它从数据中学习一个分类决策函数或分类模型(分类器(classifier))对新的输入进行输入预测,输出变量取有限个离散值。
(监督学习就像是先做模拟试卷(带答案),再做测试试题,查看测试实体的完成程度)

分类:
1.二分类(是与不是)
2.多分类(分成很多类)

决策树(decision tree)

是一个树结构,每个非叶节点表示一个特征属性,每个分支边代表这个特征属性在某个值域上的输出,每个叶节点存放一个类别。

决策过程

从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
示例:假如我买了一个西瓜,它的特点使纹理清晰,根茎用听,如何根据下面的决策树判断是好瓜还是坏瓜?
在这里插入图片描述
给定训练数据,如何构建决策树呢?
1.特征选择:选取对训练数据具有分类能力的特征
2.决策树生成:在决策树各个点上按照一定方法选择特征,递归构建决策树
3.决策树剪枝:在已生成的树上减掉一些子树或者叶节点,从而简化分类树模型

决策树核心算法:ID3算法,C4.5算法及CART算法

决策树特征选择
决策树构建过程中的特征选择是非常重要的一步,特征选择是决定用哪个特征来划分特征空间,特征选择是要选出对训练数据集具有分类能力的特征,这样可以提高决策树的学习效率。

信息熵: 表示随机变量的不确定性,熵越大,不确定性越大
信息增益: 信息增益 = 信息熵(前)- 信息熵(后)
信息增益比: 信息增益比 = 惩罚参数*信息增益
特征参数个数较多时,惩罚参数较大
(信息增益比 较 信息增益更具客观性)
基尼系数:表示集合的不确定性,基尼系数越大,表示不平等程度越高

决策树剪枝:
在生成树的过程中,如果没有剪枝(pruning)操作,就会生成一个对训练集完全拟合的决策树,但这是对训练集非常不友好的,泛化能力不行,因此,需要减掉一些枝叶,使得模型泛化能力更强。

理想的决策树有三种:
叶子节点数最少
叶子节点深度最小
叶子节点数最小且叶子节点深度最小

剪枝方法:

  1. 预剪枝:通过提前停止树的构建而对树剪枝,一旦停止,节点就是叶子,该叶子持有子集中最频繁的类
    (1)定义一个高度,当决策树达到该高度时就停止生长
    (2)达到某个节点的实例具有相同的特征向量
    (3)定义一个阈值(实例个数,系统性能增益等)
  2. 后剪枝方法:首先构造完整的决策树,然后对那些置信度不够的结点子树用叶子结点来代替,该叶子的类标号用该结点子树中最频繁的类标记
    (相比于预剪枝,后剪枝更常用,因为在预剪枝方法中精确地估计何时停止树增长很困难)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值