前言
本文将介绍如何获得“机器学习预测股票收益(一)之随机森林模型”一文中使用的最优参数。
一、随机森林模型主要参数介绍
1.n_estimators:表示森林中决策树的数量。决策树数量过少容易导致欠拟合,决策树数量过多会大大增加计算工作量。该值需要根据模型的数据特征进行选择。随机森林回归模型中的默认值为 100。
2. max_features:表示用于建立决策树的最大特征数。对于一个包含N个特征的样本,如果max_features = “auto”,则最大特征数为n。如果 max_features = “sqrt”,则最大特征数为 √N。如果 max_features = “log2”,则最大特征数为log2 N
3.max_depth:表示决策树的最大深度。在大样本的情况下,应该限制该值。
4.min_samples_split:表示划分分类回归树节点的最小样本数。当分裂节点中的样本数小于 min_samples_split 时,树停止分裂。当样本量很大时,应该增加该值。
5.min_samples_leaf:表示叶子节点的最小样本数。如果叶子节点下的样本数小于 min_samples_leaf,则将与兄弟节点一起修剪该叶子节点。如果样本量不大,一般不需要限制。
二、设置超参数范围
n_estimators_range= [50,100,150,200