1.决策树
决策树(Decision Tree)是类似数据结构中的二叉树,是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。
本次主要讲的是决策树的分类问题,我们生活中其实很多场景都用到过决策树的方法。
比如生活中常见的校园招聘过程,对各项条件是否满足进行判断。如下图所示:
由上图可得到从根节点到叶子节点的过程就是决策的过程,通过各个节点来做出判断并进行分类,由此可知决策树天然解决多分类问题,有非常好的解释性。
决策树主要有两个问题:
每个节点在哪个维度做划分?(类似特征)
某个维度在哪个值上做划分?
由决策树树的两个问题,即通过什么方式或规则来做出判断,因此要讲到信息熵。
2.信息熵
熵在信息论中代表随机变量不确定的度量。
熵越大,数据的不确定性越高;
熵越小,数据的不确定性越低。
香农公式中,信息熵的公式为: