在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.
而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,baggin这里就不再讲一遍了,详情见机器学习笔记十三:Ensemble思想(上)
然后你还需要有决策树和CART分类与回归树的基本知识.因为随机森林的基本分类/回归器是CART,(这个后面会提到.)所以只有先理解了CART才能够算能够真正理解了随机森林.
要是对于决策树和CART不熟,转到:
机器学习笔记十一:决策树
机器学习笔记十二:分类与回归树CART
随机森林相对于Adaboost或者是GBDT等集成学习算法来说,是比较简单易懂的,思想也很自然.要是上面列出的基础知识心里有数之后,就非常容易的理解随机森林了.
一.随机森林算法
先用比较简单的语言描述一下随机森林算法,注意和bagging思路的对比哦.
随机森林在bagging的基础上做了一些修改,大致的算法是:
1.从样本集中随机采样选择n个样本;
2.从所有属性中随机选择k个特征,选择最佳分割特征作为节点建立CART决策树;
3.重复上面两步m次,那么就建立了m棵决策树;
4.这m个CART形成随机森林,通过投票表决,决定数据属于哪一类.