GBDT:
GBDT是通过采用加法模型(基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。通过多轮迭代,每轮产生一个弱分类器,每个分类器在上一轮分类器的残差(这里的残差是当前模型的负梯度值)基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的,因为训练的过程就是通过降低偏差来不断提高分类器的精度。(弱分类器一般选择CART)
GBDT的优缺点 :
优点:精度高、能处理非线性数据、适合低维稠密数据、能处理多特征类型、模型可解释性好、不需要做特征的归一化、可以自动选择特征、能适应多种损失函数
缺点:不适合高维稀疏数据、不能并行处理、计算复杂度高
RandomForest:
提到随机森林,就不得不提Bagging,Bagging可以简单的理解为:放回抽样,多数表决(分类)或简单平均(回归),同时Bagging的基学习器之间属于并列生成,不存在强依赖关系。
Random Forest(随机森林)是Bagging的扩展变体,它在以决策树 为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括RF包括四个部分:
1、随机选择样本(放回抽样)
2、随机选择特征
3、构建决策树
4、随机森林投票(平均)
随机选择样本和Bagging相同,随机选择特征是指在树的构建中,会从样本集的特征集合中随机选择部