决策树

机器学习实战 第一周打卡
决策树
简单地说,决策树(decision tree)是一种基本的分类与回归方法

对于决策树算法,我们听说过的便是ID3,C4.5,CART。
而这章我们主要理解和学会的便是其中的信息增益与信息熵。我这里采用视频中采用的贷款申请实例作为说明

首先我们要搞清楚决策树算法预测的步骤:
1.收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从媒婆那里,或者通过参访相亲对象2.获取数据。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。
3.准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。
4.分析数据:可以使用任何方法,决策树构造完成之后,我们可以检查决策树图形是否符合预期。
5.训练算法:这个过程也就是构造决策树,同样也可以说是决策树学习,就是构造一个决策树的数据结构。
6.测试算法:使用经验树计算错误率。当错误率达到了可接收范围,这个决策树就可以投放使用了。
7.使用算法:此步骤可以使用适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

一。希望通过所给的训练数据学习一个贷款申请的决策树,用以对未来的贷款申请进行分类,即当新的客户提出贷款申请时,根据申请人的特征利用决策树决定是否批准贷款申请。特征选择就是决定用哪个特征来划分特征空间。比如这个例子中对人的年龄分类、有无房子等等作为能否贷款的凭据。
二、信息熵。
通过已知公式
在这里插入图片描述
在这里插入图片描述
期中n是分类的数目。熵越大,随机变量的不确定性就越大。

在这里插入图片描述
通过已有的数据就可以代入公式求得相应的熵值。
在视频中,他们对对数据集进行属性标注。
年龄:0代表青年,1代表中年,2代表老年;
有工作:0代表否,1代表是;
有自己的房子:0代表否,1代表是;
信贷情况:0代表一般,1代表好,2代表非常好;
类别(是否给贷款):no代表否,yes代表是。
三、信息增益
信息增益是相对于特征而言的,信息增益越大,特征对最终的分类结果影响也就越大,我们就应该选择对最终分类结果影响最大的那个特征作为我们的分类特征。我罗列出相应公式
在这里插入图片描述
上式为特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差
在这里插入图片描述
给出该熵的计算公式。
同样的,将之前数据集中的数据代入相应的公式,即可得出相应的增益值。

经过上述步骤后,了解一下决策树的生成和修剪。从数据集构造决策树算法所需要的子功能模块,包括经验熵的计算和最优特征的选择,其工作原理如下:得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。第一次划分之后,数据集被向下传递到树的分支的下一个结点。在这个结点上,我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。

最后得出的全部代码如下:`# -- coding: UTF-8 --
from math import log

“”"
函数说明:计算给定数据集的经验熵(香农熵)

Parameters:
dataSet - 数据集
Returns:
shannonEnt - 经验熵(香农熵)
Author:
Jack Cui
Modify:
2017-03-29
“”"
def calcShannonEnt(dataSet):
numEntires = len(dataSet) #返回数据集的行数
labelCounts = {} #保存每个标签(Label)出现次数的字典
for featVec in dataSet: #对每组特征向量进行统计
currentLabel = featVec[-1] #提取标签(Label)信息
if currentLabel not in labelCounts.keys(): #如果标签(Label)没有放入统计次数的字典,添加进去
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1 #Label计数
shannonEnt = 0.0 #经验熵(香农熵)
for key in labelCounts: #计算香农熵
prob = float(labelCounts[key]) / numEntires #选择该标签(Label)的概率
shannonEnt -= prob * log(prob, 2) #利用公式计算
return shannonEnt #返回经验熵(香农熵)

“”"
函数说明:创建测试数据集

Parameters:

Returns:
dataSet - 数据集
labels - 分类属性
Author:
Jack Cui
Modify:
2017-07-20
“”"
def createDataSet():
dataSet = [[0, 0, 0, 0, ‘no’], #数据集
[0, 0, 0, 1, ‘no’],
[0, 1, 0, 1, ‘yes’],
[0, 1, 1, 0, ‘yes’],
[0, 0, 0, 0, ‘no’],
[1, 0, 0, 0, ‘no’],
[1, 0, 0, 1, ‘no’],
[1, 1, 1, 1, ‘yes’],
[1, 0, 1, 2, ‘yes’],
[1, 0, 1, 2, ‘yes’],
[2, 0, 1, 2, ‘yes’],
[2, 0, 1, 1, ‘yes’],
[2, 1, 0, 1, ‘yes’],
[2, 1, 0, 2, ‘yes’],
[2, 0, 0, 0, ‘no’]]
labels = [‘年龄’, ‘有工作’, ‘有自己的房子’, ‘信贷情况’] #分类属性
return dataSet, labels #返回数据集和分类属性

“”"
函数说明:按照给定特征划分数据集

Parameters:
dataSet - 待划分的数据集
axis - 划分数据集的特征
value - 需要返回的特征的值
Returns:

Author:
Jack Cui
Modify:
2017-03-30
“”"
def splitDataSet(dataSet, axis, value):
retDataSet = [] #创建返回的数据集列表
for featVec in dataSet: #遍历数据集
if featVec[axis] == value:
reducedFeatVec = featVec[:axis] #去掉axis特征
reducedFeatVec.extend(featVec[axis+1:]) #将符合条件的添加到返回的数据集
retDataSet.append(reducedFeatVec)
return retDataSet #返回划分后的数据集

“”"
函数说明:选择最优特征

Parameters:
dataSet - 数据集
Returns:
bestFeature - 信息增益最大的(最优)特征的索引值
Author:
Jack Cui
Modify:
2017-03-30
“”"
def chooseBestFeatureToSplit(dataSet):
numFeatures = len(dataSet[0]) - 1 #特征数量
baseEntropy = calcShannonEnt(dataSet) #计算数据集的香农熵
bestInfoGain = 0.0 #信息增益
bestFeature = -1 #最优特征的索引值
for i in range(numFeatures): #遍历所有特征
#获取dataSet的第i个所有特征
featList = [example[i] for example in dataSet]
uniqueVals = set(featList) #创建set集合{},元素不可重复
newEntropy = 0.0 #经验条件熵
for value in uniqueVals: #计算信息增益
subDataSet = splitDataSet(dataSet, i, value) #subDataSet划分后的子集
prob = len(subDataSet) / float(len(dataSet)) #计算子集的概率
newEntropy += prob * calcShannonEnt(subDataSet) #根据公式计算经验条件熵
infoGain = baseEntropy - newEntropy #信息增益
print(“第%d个特征的增益为%.3f” % (i, infoGain)) #打印每个特征的信息增益
if (infoGain > bestInfoGain): #计算信息增益
bestInfoGain = infoGain #更新信息增益,找到最大的信息增益
bestFeature = i #记录信息增益最大的特征的索引值
return bestFeature #返回信息增益最大的特征的索引值

if name == ‘main’:
dataSet, features = createDataSet()
print(“最优特征索引值:” + str(chooseBestFeatureToSplit(dataSet)))
链接:https://blog.csdn.net/c406495762/article/details/75663451
https://www.bilibili.com/video/av36993857
https://github.com/apachecn/AiLearning/tree/master/docs/ml
https://github.com/apachecn/data/tree/master/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值