学习记录628@python机器学习之集成学习方法

集成学习通过并联(如Bagging)或串联(如Boosting)的方式结合多个学习器,以提高预测准确率。随机森林作为集成学习的实例,使用决策树进行集成。在预测阶段,集成学习常采用平均法或投票法决定最终结果。代码示例展示了如何使用Scikit-Learn的RandomForestClassifier实现随机森林算法。
摘要由CSDN通过智能技术生成

概述

在实际使用及其学习模型时,更值得我们关注的往往是如何提高预测结果的准确率。选择不同的模型,调节模型的各种参数,是最容易想到的方法,但当前业界采用更多的方法是集成学习方法。
集成学习不是一种独立的机器学习算法,而是把彼此没有关联的机器学习“集成”起来,以取得更好的效果。

训练如何集成

将机器学习算法用集成学习的方法组织起来,主要有两种组织结构,一种是并联,另一种是串联。
所谓并联,就是训练过程是并行的。几个学习器相对独立地完成预测工作,互相之间既不知道也不打扰彼此,相当于大家拿到试卷后分别答题,期间互相不参考、不讨论,只是最后以某种方法把答案合成一份。Bagging算法全称为Bootstrap Aggregation,这是一种并行集成学习方法。
在这里插入图片描述
所谓串联,就是训练过程是串行的。几个学习器串在一起合作完成预测,第一个学习器拿到数据集后完成预测,然后把预测结果以及相关数据传递给第二个学习器,第二个学习器也是在完成预测后把结果和相关数据传递下去。Boosting算法是一种串行集成学习方法
在这里插入图片描述

预测如何集成

对于预测结果采用平均法和投票法,所谓投票法就是少数服从多数。

以上说了这么多,算法具体是什么呢?如果说到大名鼎鼎的随机森林,想必就会恍然大悟了,这就是将决策树算法继承的算法。

代码实战

from sklearn.datasets import load_iris
from sklearn import model_selection
# 从Scikit-Learn库导入集成学习模型的随机森林分类算法
from sklearn.ensemble import RandomForestClassifier
#载入鸢尾花数据集
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y,
                                                                    test_size=0.25, random_state=1234)
clf=RandomForestClassifier().fit(X_train, y_train)
gnb_pred = clf.predict(X_test)
print("预测值{}".format(gnb_pred))
print("原值{}".format(y_test))
print("得分:{}".format(clf.score(X_test,y_test)))

# 看下随机森林对于决策树的集成使用详情
print(clf.estimators_)

在这里插入图片描述
运用了两次决策树算法
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值