目录
5.3 Decision Tree、Random Forest和Extra-Trees对比
5.4 基于pandas和scikit-learn实现Random Forest
5.5 Random Forest 与其他机器学习分类算法对比
前言
最近在学习一篇论文《Mining Quality Phrases from Massive Text Corpora》,讲的是如何从海量文本语料库中挖掘优质短语,其中用到了随机森林(Random Forest)算法,所以我去学习了一下,我博客之前专门针对决策树(Decision Tree)有过讲解,Random Forest 就是基于Decision Tree 的优化版本,下面我们来一起来讨论一下什么是Random Forest。
一、什么是Random Forest ?
作为高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。所以可以看出,Random Forest在准确率方面还是相当有优势的。