⛄一、随机森林算法预测简介
随机森林 (random forest) 是一种基于分类树 (classification tree) 的算法 (Breiman, 2001) 。这个算法需要模拟和迭代, 被归类为机器学习中的一种方法。经典的机器学习模型是神经网络 (Hopfield, 1982) , 有半个多世纪的历史了。神经网络预测精确, 但是计算量很大。20世纪80年代Breiman等人 (1984) 发明了分类和回归树 (Classification And Regression Tree, 简称CART) 的算法, 通过反复二分数据进行分类或回归, 计算量大大降低。
RF是由一系列树型分类器{h (x, Θ) }k, 其中k=1, …, 组合成的分类器, 其中Θk是独立同分布随机向量, 且每棵树对输入向量x所属的最受欢迎类投一票[6]。RF生成步骤如图1所示: (1) 从总训练样本集D中用Bootstrap采样选取k个子训练样本集D1, D2, …, Dk, 并预建k棵分类树; (2) 在分类树的每个节点上随机地从n个指标中选取m个, 选取最优分割指标进行分割; (3) 重复步骤 (2) 遍历预建的k棵分类树; (4) 由k棵分类树形成随机森林。
Bootstrap随机抽样得到输入训练集和节点随机选取指标进行分割, 使得RF对噪声有很好的容忍性, 且降低了分类树之间的相关性。单棵树不剪枝任意生长的特点可获得低偏差分类树, 且能够保