1. 决策树模型与学习
决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其中,C4.5是基于ID3的,对分裂属性的目标函数做出了改进。
决策树模型
决策树是一种通过对特征属性的分类对样本进行分类的树形结构,包括有向边与三类节点:
- 根节点(root node),表示第一个特征属性,只有出边没有入边;
- 内部节点(internal node),表示特征属性,有一条入边至少两条出边
- 叶子节点(leaf node),表示类别,只有一条入边没有出边。
上图给出了(二叉)决策树的示例。决策树具有以下特点:
- 对于二叉决策树而言,可以看作是if-then规则集合,由决策树的根节点到叶子节点对应于一条分类规则;
- 分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
- 分类的本质是对特征空间的划分,如下图所示,
决策树学习
决策树学习的本质是从训练数据集中归纳出一组分类规则[2]。但随着分裂属性次序的不同,所得到的决策树也会不同。如何得到一棵决策树既对训练数据有较好的拟合,又对未知数据有很好的预测呢?
首先,我们要解决两个问题:
- 如何选择较优的特征属性进行分裂?每一次特征属性的分裂,相当于对训练数据集进行再划分,对应于一次决策树的生长。ID3算法定义了目标函数来进行特征选择。
- 什么时候应该停止分裂?有两种自然情况应该停止分裂,一是该节点对应的所有样本记录均属于同一类别,二是该节点对应的所有样本的特征属性值均相等。但除此之外,是不是还应该其他情况停止分裂呢?
2. 决策树算法
特征选择
特征选择指选择最大化所定义目标函数的特征。下面给出如下三种特征(Gender, Car Type, Customer ID)分裂的例子:
图中有两类类别(C0, C1),C0: 6
是对C0类别的计数。直观上,应选择Car Type特征进行分裂,因为其类别的分布概率具有更大的倾斜程度,类别不确定程度更小。
为了衡量类别分布概率的倾斜程度,定义决策树节点
的不纯度(impurity),其满足:不纯度越小,则类别的分布概率越倾斜;下面给出不纯度的的三种度量:
![](https://i-blog.csdnimg.cn/blog_migrate/6fda87503c3f76635bc1351ca5ee7c05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/02f1969cdfc33d065bf472d117b5160a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/25feb8b6c1c3aa342207921972100db5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8fc10b9690603498492b55f77600c79c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8e719c16b8806be7e85a74c87dfeac76.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/548af84237e736bec5c58d110f461c04.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6bd562a8a8a936339a0a125e6b4c0c53.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b283dda68754c3de4bff12d9bae674a8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/83b735baca293efb604041e83fafa479.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/14dfee35b05e4e5a4f35539d54abc9a9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e430f54e6908120049a97db8bdb2954.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7582da10a5173004f6af0a1270e3b08d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/20b8f7fe76a652aa611d756382773389.png)
![](https://i-blog.csdnimg.cn/blog_migrate/20b8f7fe76a652aa611d756382773389.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/329d43eb1e413fba21045bd9c755127f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/02f1969cdfc33d065bf472d117b5160a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b0ac74f085ee06a14e57fc92d7717a71.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/02f1969cdfc33d065bf472d117b5160a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e2918013f651930d37d12461f46ef48e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ca5819d9b75fb063080a55d62772bd52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bdb34b9f7e952c2ff426b8a865d932a2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6a5d7587c2bba2ff64838bfdf0b67e37.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6bd562a8a8a936339a0a125e6b4c0c53.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b283dda68754c3de4bff12d9bae674a8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8abf2272e4fb5fbcabd85544aab70113.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
其中,
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9f56581a9a5046f5b91412b0d2521481.png)
的概率。这三种不纯度的度量是等价的,在等概率分布是达到最大值。
为了判断分裂前后节点不纯度的变化情况,目标函数定义为信息增益(information gain):
![](https://i-blog.csdnimg.cn/blog_migrate/00e95c8b885e5f60c5ba95c27107491c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b0ac74f085ee06a14e57fc92d7717a71.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a9fb567af23e1218c40f38e071be14d5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5afff27d9a807ba051985c56928d4f50.png)
![](https://i-blog.csdnimg.cn/blog_migrate/62edeb113aac23e86a5b0f4224420d35.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/58cabd3af27c246c7347f831409fc052.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/7bfc97dbbdccbcac5621ef7608906afd.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b0ac74f085ee06a14e57fc92d7717a71.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
为分裂后的子节点数。
特别地,ID3算法选取熵值作为不纯度
的度量,则
![](https://i-blog.csdnimg.cn/blog_migrate/00e95c8b885e5f60c5ba95c27107491c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a9fb567af23e1218c40f38e071be14d5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5afff27d9a807ba051985c56928d4f50.png)
![](https://i-blog.csdnimg.cn/blog_migrate/62edeb113aac23e86a5b0f4224420d35.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40ffc1d08cd82199e06060768dfd9a03.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1d353f4eb3430d1be8f5ab01444de2e6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/62edeb113aac23e86a5b0f4224420d35.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3b6f9759a7abbac935c652e71dc068f2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/2e0d3c735953439192e68e719731a604.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/94c8576b4bacc9c98e63c49444c05d73.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/94c8576b4bacc9c98e63c49444c05d73.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5dd6ad9677a32c1c974a5401b7307d2e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/00e95c8b885e5f60c5ba95c27107491c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/94c8576b4bacc9c98e63c49444c05d73.png)
![](https://i-blog.csdnimg.cn/blog_migrate/f9a754f299fb97260010ce70a4f5f8c4.png)
不确定性减少的程度。
在特征分裂后,有些子节点的记录数可能偏少,以至于影响分类结果。为了解决这个问题,CART算法提出了只进行特征的二元分裂,即决策树是一棵二叉树;C4.5算法改进分裂目标函数,用信息增益比(information gain ratio)来选择特征:
![](https://i-blog.csdnimg.cn/blog_migrate/548af84237e736bec5c58d110f461c04.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5946ac4ddf024c90425c78bbce6ceae4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/02f1969cdfc33d065bf472d117b5160a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/00e95c8b885e5f60c5ba95c27107491c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6fda87503c3f76635bc1351ca5ee7c05.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/02f1969cdfc33d065bf472d117b5160a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6ed70225f2c1f1f23a2943d0af421ad2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/32b872421c39024c9af6ba7daa73f28a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0a6f93171a2add28afda019bd506c0d8.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9cebed62e32535ffe4be3f3c21f7ef5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b0ac74f085ee06a14e57fc92d7717a71.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c092d008f8086733dc7fd9d30f9131f9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/df17f08a61522e75bb7b78c6cac59d5d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/d026b0eee8e48fd389eb8af6e4813405.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
因而,特征选择的过程等同于计算每个特征的信息增益,选择最大信息增益的特征进行分裂。此即回答前面所提出的第一个问题(选择较优特征)。ID3算法设定一阈值,当最大信息增益小于阈值时,认为没有找到有较优分类能力的特征,没有往下继续分裂的必要。根据最大表决原则,将最多计数的类别作为此叶子节点。即回答前面所提出的第二个问题(停止分裂条件)。
决策树生成
ID3算法的核心是根据信息增益最大的准则,递归地构造决策树;算法流程如下:
- 如果节点满足停止分裂条件(所有记录属同一类别 or 最大信息增益小于阈值),将其置为叶子节点;
- 选择信息增益最大的特征进行分裂;
- 重复步骤1-2,直至分类完成。
C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。
3. 决策树剪枝
过拟合
生成的决策树对训练数据会有很好的分类效果,却可能对未知数据的预测不准确,即决策树模型发生过拟合(overfitting)——训练误差(training error)很小、泛化误差(generalization error,亦可看作为test error)较大。下图给出训练误差、测试误差(test error)随决策树节点数的变化情况:
可以观察到,当节点数较小时,训练误差与测试误差均较大,即发生了欠拟合(underfitting)。当节点数较大时,训练误差较小,测试误差却很大,即发生了过拟合。只有当节点数适中是,训练误差居中,测试误差较小;对训练数据有较好的拟合,同时对未知数据有很好的分类准确率。
发生过拟合的根本原因是分类模型过于复杂,可能的原因如下:
- 训练数据集中有噪音样本点,对训练数据拟合的同时也对噪音进行拟合,从而影响了分类的效果;
- 决策树的叶子节点中缺乏有分类价值的样本记录,也就是说此叶子节点应被剪掉。
剪枝策略
为了解决过拟合,C4.5通过剪枝以减少模型的复杂度。[2]中提出一种简单剪枝策略,通过极小化决策树的整体损失函数(loss function)或代价函数(cost function)来实现,决策树
的损失函数为:
![](https://i-blog.csdnimg.cn/blog_migrate/5fc13cb22af6a54e1bf88db96219fc8d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3380be97e60633593d2def0456a81b52.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c3797902781130dc0f0a0f915f3097c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/40827a6398fcec6b551562eca003ceb9.png)
![](https://i-blog.csdnimg.cn/blog_migrate/1e430f54e6908120049a97db8bdb2954.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ea9a2d81b5b44bd195fe6c3dc5e24b4.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c3797902781130dc0f0a0f915f3097c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/9ed0afb572bef457b579d4cf61879e9b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6f76ad74e4e3523c5effb945aaa077a6.png)
![](https://i-blog.csdnimg.cn/blog_migrate/180fa0e6afc83453244f14091aeb3771.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c3797902781130dc0f0a0f915f3097c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
其中,
![](https://i-blog.csdnimg.cn/blog_migrate/180fa0e6afc83453244f14091aeb3771.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c3797902781130dc0f0a0f915f3097c5.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bbd8a060df0534aaa474a54c90dab235.png)
为模型的复杂度。当模型越复杂时,训练的误差就越小。上述定义的损失正好做了两者之间的权衡。
如果剪枝后损失函数减少了,即说明这是有效剪枝。具体剪枝算法可以由动态规划等来实现。
4. 参考资料
[1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
[2] 李航,《统计学习方法》.
[3] Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.