Kaggle 翻译，第十二天：机器学习 6/7

最新推荐文章于 2024-10-03 09:02:12 发布

King Stars

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量100

点赞数

分类专栏： Kaggle与人工智能文章标签： python 人工智能机器学习

原文链接：https://www.kaggle.com/code/dansbecker/random-forests

版权

Kaggle与人工智能专栏收录该内容

25 篇文章 5 订阅

订阅专栏

随机森林——机器学习 6/7

使用一个更复杂的机器学习算法。

简介

决策树会将你陷入这样的囧镜：一个深度大的、叶节点多的数会过度拟合，因为每个预测都是基于寥寥几个叶节点的历史数据。但是一个深度较浅的树同样会预测失效，因为它不能抓住原始数据的差别。
即使是如今最复杂的模型技巧都面临着这个过度拟合和低度拟合的问题。但是，许多模型有一些特殊的技巧使得他们有更好的预测效果。我们先来看看 随机森林
随机森林中有众多棵树，他们通过每一棵树预测的平均值，来综合做出预测。它总体上会比单一的决策树预测效果要好很多，而且它再默认参数下的预测效果也很棒。如果你持续练习训练模型，你会学到许多有更好表现的模型，但是他们中许多模型对于合适的参数是非常敏感的。

例子

你已经多次见过加载数据的方式了，再数据加载完后，我们得到一下几个变量：
- train_X
- val_X
- train_y
- val_y
我们用与创建决策树类似的方法创建一个随机森林，使用的是RandomForestRegressor而不是 DecisionTreeRegressor

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))