”机器学习实战“刻意练习4/8

最新推荐文章于 2019-12-19 22:06:38 发布

Zenobia_zzzzz

最新推荐文章于 2019-12-19 22:06:38 发布

阅读量110

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/weixin_45771735/article/details/103440076

版权

学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

文章目录

AdaBoost

AdaBoost

原理理解

AdaBoost改变了训练数据的权值，也就是样本的概率分布，其思想是将关注点放在被错误分类的样本上，减小上一轮被正确分类的样本权值，提高那些被错误分类的样本权值。然后，再根据所采用的一些基本机器学习算法进行学习，比如逻辑回归。
AdaBoost采用加权多数表决的方法，加大分类误差率小的弱分类器的权重，减小分类误差率大的弱分类器的权重。这个很好理解，正确率高分得好的弱分类器在强分类器中当然应该有较大的发言权。
Adaboost算法基本原理就是将多个弱分类器（弱分类器一般选用单层决策树）进行合理的结合，使其成为一个强分类器。
Adaboost采用迭代的思想，每次迭代只训练一个弱分类器，训练好的弱分类器将参与下一次迭代的使用。也就是说，在第N次迭代中，一共就有N个弱分类器，其中N-1个是以前训练好的，其各种参数都不再改变，本次训练第N个分类器。其中弱分类器的关系是第N个弱分类器更可能分对前N-1个弱分类器没分对的数据，最终分类输出要看这N个分类器的综合效果。
具体介绍

实例

在这里插入图片描述

算法流程

在这里插入图片描述

公式推导

在这里插入图片描述

代码实战

#coding=utf-8
#python 3.5
'''
Created on 2017年11月24日
@author: Scorpio.Lu
'''

'''
在scikit-learn库中，有AdaBoostRegression（回归）和AdaBoostClassifier（分类）两个。
在对和AdaBoostClassifier进行调参时，主要是对两部分进行调参：1) AdaBoost框架调参；2)弱分类器调参
'''

#导包
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import AdaBoostClassifier  

#载入数据，sklearn中自带的iris数据集
iris=load_iris()

'''
AdaBoostClassifier参数解释
base_estimator:弱分类器，默认是CART分类树：DecisionTressClassifier
algorithm：在scikit-learn实现了两种AdaBoost分类算法，即SAMME和SAMME.R，
           SAMME就是原理篇介绍到的AdaBoost算法，指Discrete AdaBoost
           SAMME.R指Real AdaBoost，返回值不再是离散的类型，而是一个表示概率的实数值，算法流程见后文
                            两者的主要区别是弱分类器权重的度量，SAMME使用了分类效果作为弱分类器权重，SAMME.R使用了预测概率作为弱分类器权重。
           SAMME.R的迭代一般比SAMME快，默认算法是SAMME.R。因此，base_estimator必须使用支持概率预测的分类器。
loss：这个只在回归中用到，不解释了
n_estimator:最大迭代次数，默认50。在实际调参过程中，常常将n_estimator和学习率learning_rate一起考虑
learning_rate:每个弱分类器的权重缩减系数v。f_k(x)=f_{k-1}*a_k*G_k(x)。较小的v意味着更多的迭代次数，默认是1，也就是v不发挥作用。
另外的弱分类器的调参，弱分类器不同则参数不同，这里不详细叙述
'''
#构建模型
clf=AdaBoostClassifier(n_estimators=100)  #弱分类器个数设为100
scores=cross_val_score(clf,iris.data,iris.target)
print(scores.mean())

Zenobia_zzzzz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
”机器学习实战“刻意练习4/8

文章目录AdaBoost原理理解实例算法流程公式推导代码实战AdaBoost原理理解AdaBoost改变了训练数据的权值，也就是样本的概率分布，其思想是将关注点放在被错误分类的样本上，减小上一轮被正确分类的样本权值，提高那些被错误分类的样本权值。然后，再根据所采用的一些基本机器学习算法进行学习，比如逻辑回归。AdaBoost采用加权多数表决的方法，加大分类误差率小的弱分类器的权重，...
复制链接

扫一扫