文章目录
一、分类型随机森林参数简介
装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。装袋法的代表模型就是随机森林。sklearn中的集成算法模块ensemble中的RandomForestClassifier 就是随机森林分类。
n_estimators
这是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越大,模型的效果往往越好。但是相应的,任何模型都有决策边界,n_estimators达到一定的程度之后,随机森林的精确性往往不在上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越长。对于这个参数,我们是渴望在训练难度和模型效果之间取得平衡。
random_state
假设我们建立了25棵树,对任何一个样本而言,平均或多数表决原则下,当且仅当有13棵以上的树判断错误的时候,随机森林才会判断错误。单独一棵决策树对数据集的分类准确率在0.85上下浮动,假设一棵树判断错误的可能性为0.2(ε),那20棵树以上都判断错误的可能性是:


可见&#x

本文介绍了sklearn中的随机森林参数,如n_estimators和random_state,探讨了随机森林如何通过bootstrap和oob_score提高准确性。接着,文章展示了如何用决策树填补数据缺失值,并在乳腺癌数据集上进行调参实践,包括n_estimators的初步调整和max_depth、max_features的精细化调整,最终得出模型已达到预测上限的结论。
最低0.47元/天 解锁文章
271

被折叠的 条评论
为什么被折叠?



