随机森林内容温习

最新推荐文章于 2024-08-08 15:12:59 发布

cfcys‖XDU

最新推荐文章于 2024-08-08 15:12:59 发布

阅读量402

点赞数

文章标签：随机森林算法机器学习

本文链接：https://blog.csdn.net/weixin_60533446/article/details/126382814

版权

好久没有写推文里，利用写推文的机会对曾经学过的内容进行一次复习

一.前置知识

1.1决策树

STEP1:特征选择：筛选出跟分类结果相关性较高的特征

选择准则：信息增益公式 $\operatorname{Gain}(Y, X)=H(Y)-H(Y \mid X)$

对该公式的理解：

熵：表示随机变量的不确定性

信息熵与条件熵：

信息熵：情况越混乱，信息熵就越大，反之则越小；举个例子：我们可以说太阳从东边出来，这件事情因为是一定会发生的，故其信息熵可以看作为0；但是当有一天，突然在有人发现太阳打西边出来，并且这件事情被天文学家所验证的时候，大家就都陷入了对此事件的热论之中；因此我们可以说此时的情况是混乱的，信息熵是很大的

条件熵：表示在一个条件下随机变量的不确定性， $H(Y \mid X)=\sum_{x \in X} p(x) H(Y \mid X=x)$ ，这个很好理解，可以认为是在给定一个条件之后，随机变量的不确定性。比如在我是个穷逼，班花和我恋爱的不确定程度就很大，同时在我是个富人的条件下，班花和我恋爱的不确定度就要小一些

信息增益：可以简单理解为信息熵减去条件熵；同时也是在得知一个条件以后，信息熵减少的程度，从而当一个信息的信息增益越大，我们就说该信息越重要，因而我们可以利用该公式来选择出更为重要的特征。

STEP2:决策树生成

关于决策树：一种树形的结构，一般由根节点、父节点、子节点、叶子节点组成

关于节点：父节点和子节点是相对的，子节点可以由父节点分裂而来，而子节点还能作为新的父节点继续分裂；根节点是没有父节点，即初始分裂节点，叶子节点是没有子节点的节点，为终节点。

每一个分支代表着一个判断，每个叶子节点代表一种结果。

个人理解：从第一个节点开始，选取所有特征中信息增益最大的那一个，然后下一个节点由同样的方式计算，直到信息增益很少或者节点已经太多，例如：在选择购买一件衣服时候，小明可能最看重的是衣服的颜色，那么对于小明来说，衣服的颜色就是最重要的，信息增益最大的特征；而在调好了符合自己心意的颜色的衣服之后，小明认为第二重要的是衣服的舒适度，那么下一个节点则是衣服的舒适程度，而最后小明挑好的那件衣服即为叶子节点