1. 理论篇
1.1 决策树的介绍
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
分类树(决策树)是一种十分常用的分类方法。他是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
1.2 基本流程
1.2.1 不纯度(GINI系数&Entropy熵)
- 熵 信息 噪音
熵:一种事物的不确定性(比如说买西瓜的时候不知道甜不甜)
信息:消除不确定性,排除干扰,确定情况(卖西瓜的人保证很甜)
噪音:也是一种消息,但是不能消除你对某件事的不确定性。
- 不纯度(impurity)–GINI系数:
一个简单的计算示例如下图:(GINI值越小,纯度越高)