【机器学习小论文】sklearn随机森林RandomForestRegressor代码及调参

最新推荐文章于 2025-03-19 10:22:25 发布

小胡同1991

最新推荐文章于 2025-03-19 10:22:25 发布

阅读量1.7w

点赞数 17

分类专栏： Python 机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xiaohutong1991/article/details/108178143

版权

本文介绍了随机森林算法的基本原理和在scikit-learn中的实现，重点讨论了RandomForestRegressor的参数调整，如n_estimators、oob_score和criterion等，并通过代码展示了调参过程和结果分析，指出调参对模型性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

前一篇是写的线性回归模型，这一篇为随机森林，下一篇为xgboost。

二、算法简介

2.1 随机森林概述

随机森林是集成学习方法bagging类中的翘楚。与集成学习boosting类的GBDT分庭抗礼。

bagging类集成学习采用的方法是：用部分数据 or 部分特征 or 多个算法训练一些模型；然后再组合这些模型，对于分类问题采用投票多数表决，回归问题采用求平均。

各个模型训练之间互不影响，天生就适合并行化处理。在如今大数据时代背景下很有诱惑力。
主要效果：重点关注降低方差，防止过拟合。
适用于高噪声数据 (相对于GBDT等boosting类)

2.2 随机森林框架参数

在scikit-learn中，RF的分类器是RandomForestClassifier，回归器是RandomForestRegressor。和GBDT的调参类似，RF需要调参的参数也包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。具体的参数参考随机森林分类器的函数原型

classsklearn.ensemble.RandomForestRegressor(
n_estimators=10, criterion='gini',
max_depth=None,min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0,
max_features='auto', max_leaf_nodes=None,
min_impurity_split=1e-07,bootstrap=True,
oob_score=False, n_jobs=1,
random_state=None, verbose=0,
warm_start=False, class_weight=None)