决策树
定义&概念
决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
采用自上向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0。
决策树思想,实际上就是寻找最纯净的划分的方法。
重要概念
根节点、内部节点、叶节点
- 根节点:就是树的最顶端,最开始的那个节点。
- 内部节点:就是树中间的那些节点。
- 叶节点:树最底部的节点,也就是决策结果
父节点和子节点是一对,先有父节点,才会有子节点。
纯度
纯度也就是让目标变量的分歧最小。
纯度通俗点理解就是目标变量要分得足够开(y=1的和y=0的混到一起就会不纯)。另一种理解是分类误差率的一种衡量。
举个例子,假设有 3 个集合:
- 集合 1:6 次都去打篮球;
- 集合 2:4 次去打篮球,2 次不去打篮球;
- 集合 3:3 次去打篮球,3 次不去打篮球。
按照纯度指标来说,集合 1> 集合 2> 集合 3。因为集合1 的分歧最小,集合 3 的分歧最大。
信息熵
来源于信息论。
是一种度量,表示信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高
在信息论中,随机离散事件出现的概率存在着不确定性。为了衡量这种信息的不确定性,信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式。
单个熵
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=−∑i=1npilogpi p i : 概 率 分 布 p_i:概率分布 pi:概率分布
例子
举个例子(单个熵),假设有 2 个集合:
- 集合 1:5 次去打篮球,1 次不去打篮球;
- 集合 2:3 次去打篮球,3 次不去打篮球。
集合1的信息熵: H ( X 1 ) = − 1 6 l o g 2 ( 1 6 ) − 5 6 l o g 2 ( 5 6 ) = 0.65 H(X_1)=-\frac{1}{6}log_2(\frac{1}{6})-\frac{5}{6}log_2(\frac{5}{6})=0.65 H(X1)=−