sklearn入门——回归决策树在sklearn中的实现_实例演示1
1、回归树的简介
在回归树中,几乎所有的参数都与分类树一模一样。回归树函数的参数如下:
class sklearn.tree.DecisionTreeRegressor (criterion=’mse’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None,random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)
2、重要的参数、属性及接口
criterion:回归树衡量分枝质量的指标,支持的标准总共有三种:
-
输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为
特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失。
-
输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差。
-
输入"mae"使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来最小化L1损失。
属性中最重要的是feature_importances_,是用来查看属性的重要性。
接口最重要的是:apply、fit、predict、score。
其中N是样本数量,i是每一个数据样本,fifi是模型回归出的数值,yi是样本点i实际的数值标签。MSE其实是样本真实数据与回归结果的差异。在回归中,我们追求的是,MSE越小越好。因为MSE越小,代表预测值与实际值之间的差异越小,预测也更准确一些。
然而,回归树的接口score返回的是R平方,并不是MSE。R平方被定义如下:
其中u是残差平方和(MSE *