机器学习第四章决策树

1、决策树是一类常见的机器学习方法,是基于树结构进行决策的。一般的,一棵决策树包含两类结点:内部节点和叶结点,其中内部节点表示表示一个特征或属性,叶结点表示_____决策结果_________

2、在决策树学习中,一般情况下,属性a的信息增益越大,则意味着使用属性a来进行划分获得的______纯度提升越大______________。                    

3、信息增益准则对_______可取值数目较多_____________的属性有所偏好,增益率准则对  可取数值数目较少 的属性有所偏好。 

4、在决策树学习中,C4.5决策树算法中采用____二分法______对连续属性进行离散化处理。

5、决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。特征选择的目的在于选择对训练数据能够分类的特征。特征选择的关键是其准则,常用的准则有哪些,请简单描述。

常用准则有信息增益、增益率、基尼指数。

信息增益: 属性的信息增益越大,则意味着使用该属性来划分所获得的纯度提升越大,因此,可用信息增益来进行决策树的划分属性选择。信息增益准则对可取值数目较多的属性有所偏好。

增益率: 增益率在信息增益的基础上除以一个固有值,增益率准则对可取值数目较少的属性有所偏好。

基尼指数: 基尼值反映了数据集中随机抽取两个样本,其类别标记不一致的概率,数据集的纯度越高。属性的基尼指数在基尼值的基础上乘以一个固定值,选择是的划分后基尼指数最小的属性作为划分属性。

6、目标变量在训练集上的 10 个实际值 [0,0,0,0,1,1,1,1,1,1],则目标变量的熵是________-(5/8log(5/8)+3/5log(3/5))____________。

7、C4.5决策树算法中采用______二分法____________对连续属性进行处理。

8、常用的决策树学习算法有ID3、C4.5和CART,介绍它们采用的特征选择准则是什么?

ID3采用信息增益准则;

C4.5采用增益率准则;

CART采用基尼指数准则。

9、简述决策树生成与决策树剪枝。

决策树生成是一个递归过程,在决策树基本算法中,有三种情况会导致递归返回:

  1. 当前节点包含的样本全属于同一类别,无需划分。
  2. 但前属性集为空,或是所有样本在所有属性上取值相同,无法划分。
  3. 单前节点包含的样本集为空,不能划分。

决策树剪枝是决策树学习算法对付过拟合的主要手段。决策树剪枝的基本策略有预剪枝和后剪枝:

预剪枝是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点;后剪枝则是先从训练集生成一刻完整的决策树,然后自底向上地对非叶节点进行考察,若将该节点对应的指数替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶节点。

10、决策树剪枝的基本策略有预剪枝和后剪枝,请简述并分析两种剪枝策略。

预剪枝:在决策树生成过程中,对每个节点在划分之前先进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分,并将当前节点标记为叶节点。

后剪枝:先从训练集中生成一课完整的决策树,然后自底向上对非叶子节点进行考察,若将该节点对应的子树替换为叶子结点能带来决策树泛化性能的提升,则将该子树替换为叶节点。

11、根据表4.1中的西瓜数据集,计算属性“纹理”的信息增益。

Ent(D)= 0.998

且 “纹理”有3个属性取值{清晰,稍糊,模糊},分别设为D1 D2 D3。

Ent(D1)=-(3/9log3/9+6/9log6/9)

Ent (D2)=-(4/5log4/5+1/5log1/5)

Ent(D3) = -(1log1)

Gain(D,纹理) =0.381

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值