决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
决策树可应用于银行信用自动评估系统
1 决策树的优点:
直观,便于理解,小规模数据集有效
2 决策树的缺点:
处理连续变量不好
类别较多时,错误增加的比较快
规模性一般
3 创建决策树
3.1熵
比特(bit)来衡量信息的多少
变量的不确定性越大,熵也就越大。
3.2信息增益
信息增益(Information Gain):Gain(A)=Info(D)-Infor_A(D)
通过A来作为节点分类获取了多少信息。
示例: