目录
1. 信息论基础
1.1 熵
熵是表示随机变量不确定性的度量。熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。
1.2 条件熵
条件熵 H(Y|X)表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即H(Y|X)=H(X,Y)−H(X)。
1.3 联合熵
联合熵就是度量一个联合分布的随机系统的不确定度。如果X,Y是一对离散型变量X,Y~p(x,y),X,Y的联合熵,H(X,Y)定义为:
1.4 信息增益
信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度,在分类中是一种衡量样本特征重要性的方法,直观的理解是有无样本特征对分类问题的影响的大小。信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好。假设某个状态下系统的信息熵为H(Y),再引入某个特征X后的信息熵为H(Y|X),则特征X的信息增益定义为:
1.5 基尼不纯度
基尼不纯度是从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。简单来讲基尼不纯度是 一个随机事件变成它的对立事件的概率。基尼不纯度也可以作为衡量系统混乱程度的标准。基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好。维基上的公式是这样的:
2. 决策树原理
决策树(decision tree)也称为分类树(分类)或者回归树(数值预测)。是一种有监督的机器学习算法,是一个分类算法。在给定训练集的条件下,生成一个自顶而下的决策树,树的根为起点,树的叶子为样本的分类,从根到叶子的路径就是一个样本进行分类的过程。
决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 分类的时候,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子结点;此时,每一个子结点对应着该特征的一个取值。如此递归向下移动,直至达到叶结点,最后将实例分配到叶结点的类中。
决策树可以看成一个if-then规则的集合:由决策树的根结点到叶结点的每一条路径构建一条规则;路径上的内部结点的特征对应着规则的条件,而叶结点对应着分类的结论。决策树的路径和其对应的if-then规则集合是等效的