机器学习之决策树

叩丁狼

于 2018-04-23 11:36:15 发布

阅读量263

点赞数

文章标签：人工智能 Java 机器人算法大数据

本文链接：https://blog.csdn.net/wolfcode_cn/article/details/80048289

版权

应用场景

决策树算法是一种基本的分类方法,主要应用对一个数据集中的所用的分类结果是固定的几个值,不会应为各个相关的条件变化产生一个无法预料的分类结果.可以用于银行贷款预测模型中(分类结果只有可以贷款和不可以贷款),股票行情分析(是否值得购买)等相关的数据模型中,天气情况预测(晴,雨,阴等)。

算法剖析

决策树学习主要分为特征选择和决策树的生成。

所谓的特征选择,主要是在数据集中选择和分类目标值相关的一些特征,如果利用一个特征进行分类的结果与随机分类的结果没有大的差别的话,那么我们称这个特征是没有分辨能力的,换句话说,这样的特征值和我们的分类目标值没有太大的关系,不需要选择该类特征分类.我们应该选择一些对我们分类目标值影响较大的一些特征进行操作。

通常在选择特征值的时候,我们会使用一个信息增益的准则,其中我们所表述的信息和消除不确定性是相联系的.所谓信息增益表述的是一个特征值的信息是目标分类值的不确定性的减少程度,所以在我们进行特征分类的时候,应该选择信息增益大的一些特征值。

信息增益的计算,在进行信息增益的计算的时候,我们需要使用的两个比较重要的公式,经验熵(shang)的计算和条件熵的计算.信息熵是信息学中的一个非常重要的概念,是由数据家克劳德·艾尔伍德·香农第一次用数学语言表示信息的不确定程度。

一般而言，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准，可以做出关于知识流通问题的更多推论。

经验熵的计算公式：