决策树定义
叶子节点是分类(离散值)或是回归(阈值)的结果

熵
条件熵的推导
(连续数据的熵不一定大于等于0)

相对熵
两个概率分布可以看作一个是样本本身概率分布px、一个是预测值的概率分布qx
D的值越小,表示q分布和p分布越接近,预测效果越好,如果越大,则说明预测误差越大 ;期望在这里只是一个乘数并没有太大的作用

互信息—KL散度的定义式—就是交集
(如果独立,互信息为0;如果不为0,互信息大于0)



决策树
建立一个从根节点到叶子节点,信息熵快速不断下降的过程
自顶向下的递归方法、构造一棵熵值下降最快的树,到叶子节点处的熵为0(贪心算法)
如何布置特征选择过程使熵下降最快—信息增益(给定某一个特征,使信息熵减少了多少)

基尼系数:经济上的定义(基尼系数接近1,样本越不平均,接近0完全平均)
基尼系数的性质与信息熵一样:度量随机变量的不确定度的大小;
G 越大,数据的不确定性越高;
G 越小,数据的不确定性越低;
G = 0,数据集中的所有样本都是同一类别;


这篇博客探讨了决策树算法的核心概念,包括熵、条件熵和相对熵在信息论中的作用。内容涵盖了熵的性质,如何通过信息增益和基尼系数进行特征选择,以及如何构建最优决策树。此外,还解释了互信息(如KL散度)在评估预测效果中的意义,强调了熵和基尼系数在衡量数据不确定度上的相似性。
1150

被折叠的 条评论
为什么被折叠?



