随机森林算法(RF)和LightGBM
一、随机森林算法(RF)
1.1、简介
在集成学习中,主要分为套袋法(Bagging)和提升法(Boosting),其中随机森林属于套袋(bagging)算法。
在机器学习中,随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,包含多个决策树,并且输出的类别由个别树输出的类别的众数而定。
1.2、 Bagging(套袋法)
Bagging的算法过程如下:
1.对原始样本集中使用Bootstraping方法随机抽取n个训练样本,进行k轮抽取,得到k个训练集。(k个训练集之间相互独立,元素可以有重复)
2.对于k个训练集,训练k个模型(根据具体问题而定,比如决策树,knn等)
3.对于分类问题,由投票表决产生分类结果;对于回归问题:由k个模型预测结果的均值作为最后预测结果
1.3、 决策树
决策树是一种基本的分类器,一般是将特征分为两类。构建好的决策树呈树形结构,可以认为是if-then规则的集合,主要优点是模型具有可读性,分类速度快。