Adaboost算法

最新推荐文章于 2024-08-28 22:04:30 发布

浅浅望

最新推荐文章于 2024-08-28 22:04:30 发布

阅读量239

点赞数

分类专栏：集成学习文章标签：算法机器学习 python

本文链接：https://blog.csdn.net/xpl_1620/article/details/119973806

版权

集成学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

一、基本原理的简单介绍

Adaboost是在boosting的基础上进一步完善的，主要解决boosting面临的两个问题：
1.提高那些被前一轮分类器分类错误样本的权重，降低那些分类正确样本的权重；
2.加大分类错误率低的分类器的权重，减小分类错误率高的分类器的权重。

二、公式推导

假设给定一个二分类的训练数据集： $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ ，其中每个样本点由特征与类别组成。特征 $x_{i} \in \mathcal{X} \subseteq \mathbf{R}^{n}$ ，类别 $y_{i} \in \mathcal{Y}=\{-1,+1\}$ ， $\mathcal{X}$ 是特征空间， $\mathcal{Y}$ 是类别集合，输出最终分类器 $G (x)$ 。Adaboost算法如下：
(1) 初始化训练数据的分布(假设数据权值分布服从均匀分布)： $D_{1}=\left(w_{11}, \cdots, w_{1 i}, \cdots, w_{1 N}\right), \quad w_{1 i}=\frac{1}{N}, \quad i=1,2, \cdots, N$
(2) 对于m=1,2,…,M

使用具有权值分布 $D_m$ 的训练数据集进行学习，得到基本分类器： $G_{m}(x): \mathcal{X} \rightarrow\{-1,+1\}$
计算 $G_m(x)$ 在训练集上的分类误差率 $e_{m}=\sum_{i=1}^{N} P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)=\sum_{i=1}^{N} w_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$
计算 $G_m(x)$ 的系数 $\alpha_{m}=\frac{1}{2} \log \frac{1-e_{m}}{e_{m}}$ ，这里的log是自然对数ln ，分类错误率低，则分类器 $G_m(x)$ 的权重大。
更新训练数据集的权重分布（ $y_{i} G_{m}(x_{i})$ 分类正确结果为1，分类错误结果为-1，故更新数据权值 $\omega_{m+1}$ 时，若第m次训练分类错误，则增大在第m+1次训练时数据i的权重，反之则降低该参数的权重）
$\begin{array}{c} D_{m+1}=\left(w_{m+1,1}, \cdots, w_{m+1, i}, \cdots, w_{m+1, N}\right) \\ w_{m+1, i}=\frac{w_{m i}}{Z_{m}} \exp \left(-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right), \quad i=1,2, \cdots, N \end{array}$
这里的 $Z_m$ 是规范化因子，使得 $D_{m+1}$ 称为概率分布， $Z_{m}=\sum_{i=1}^{N} w_{m i} \exp \left(-\alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right)$

(3) 构建基本分类器的线性组合 $f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$ ，得到最终的分类器

$\begin{aligned} G(x) &=\operatorname{sign}(f(x)) \\ &=\operatorname{sign}\left(\sum_{m=1}^{M} \alpha_{m} G_{m}(x)\right) \end{aligned}$

三、举例说明Adaboost计算过程

训练数据如下表，假设基本分类器的形式是一个分割 $x < v$ 或 $x > v$ 表示，阈值v由该基本分类器在训练数据集上分类错误率 $e_m$ 最低确定。
$\begin{array}{ccccccccccc} \hline \text { 序号 } & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 \\ \hline x & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ y & 1 & 1 & 1 & -1 & -1 & -1 & 1 & 1 & 1 & -1 \\ \hline \end{array}$
解：
初始化样本权值分布
$\begin{aligned} D_{1} &=\left(w_{11}, w_{12}, \cdots, w_{110}\right) \\ w_{1 i} &=1/N=0.1, \quad i=1,2, \cdots, 10 \end{aligned}$

注：阈值 $v$ 可取： $v=0.5,1.5,2.5,\cdots,9.5$
这9个取值，构造9个基本分类器，此处为了演示，v只取部分数值进行计算。

对m=1，即在训练集 $D_1$ 上训练基本分类器 $G_1(x)$ :

在权值分布 $D_1$ 的训练数据集上，遍历每个结点并计算分类误差率 $e_m$ ，阈值取v=2.5时分类误差率最低，那么基本分类器为：
$G_{1}(x)=\left\{\begin{array}{ll} 1, & x<2.5 \\ -1, & x>2.5 \end{array}\right.$
$G_1(x)$ 在训练数据集上的误差率为 $e_{1}=P\left(G_{1}\left(x_{i}\right) \neq y_{i}\right)=0.3$ 。
计算 $G_1(x)$ 的系数： $\alpha_{1}=\frac{1}{2} \log \frac{1-e_{1}}{e_{1}}=0.4236$
更新训练数据的权值分布：
$\begin{aligned} D_{2}=&\left(w_{21}, \cdots, w_{2 i}, \cdots, w_{210}\right) \\ w_{2 i}=& \frac{w_{1 i}}{Z_{1}} \exp \left(-\alpha_{1} y_{i} G_{1}\left(x_{i}\right)\right), \quad i=1,2, \cdots, 10 \\ D_{2}=&(0.07143,0.07143,0.07143,0.07143,0.07143,0.07143,\\ &0.16667,0.16667,0.16667,0.07143) \\ f_{1}(x) &=0.4236 G_{1}(x) \end{aligned}$

对m=2，即在训练集 $D_2$ （ $D_2$ 是数据集 $D_1$ 数据权值分布变化后的数据集）上训练基本分类器 $G_2(x)$ :

在权值分布 $D_2$ 的训练数据集上，遍历每个结点并计算分类误差率 $e_m$ ，阈值取v=8.5时分类误差率最低，那么基本分类器为：
$G_{2}(x)=\left\{\begin{array}{ll} 1, & x<8.5 \\ -1, & x>8.5 \end{array}\right.$
$G_2(x)$ 在训练数据集上的误差率为 $e_2 = 0.2143$
计算 $G_2(x)$ 的系数： $\alpha_2 = 0.6496$
更新训练数据的权值分布：
$\begin{aligned} D_{3}=&(0.0455,0.0455,0.0455,0.1667,0.1667,0.1667\\ &0.1060,0.1060,0.1060,0.0455) \\ f_{2}(x) &=0.4236 G_{1}(x)+0.6496 G_{2}(x) \end{aligned}$
对m=3，即在训练集 $D_3$ （ $D_3$ 是数据集 $D_2$ 数据权值分布变化后的数据集）上训练基本分类器 $G_3(x)$ :
在权值分布 $D_3$ 的训练数据集上，遍历每个结点并计算分类误差率 $e_m$ ，阈值取v=5.5时分类误差率最低，那么基本分类器为：
$G_{3}(x)=\left\{\begin{array}{ll} 1, & x>5.5 \\ -1, & x<5.5 \end{array}\right.$
$G_3(x)$ 在训练数据集上的误差率为 $e_3 = 0.1820$
计算 $G_3(x)$ 的系数： $\alpha_3 = 0.7514$
更新训练数据的权值分布：
$D_{4}=(0.125,0.125,0.125,0.102,0.102,0.102,0.065,0.065,0.065,0.125)$

于是得到： $f_{3}(x)=0.4236 G_{1}(x)+0.6496 G_{2}(x)+0.7514 G_{3}(x)$ ，分类器 $\operatorname{sign}\left[f_{3}(x)\right]$ 在训练数据集上的误分类点的个数为0。

假设此时对样本 $(x = 3, y = - 1)$ 进行预测验证：

$x = 3$ 在分类器 $G_1(x)$ 上预测的结果为-1
$x = 3$ 在分类器 $G_2(x)$ 上预测的结果为1
$x = 3$ 在分类器 $G_3(x)$ 上预测的结果为-1
故此时分类器 $f_3(x)=0.4236\times(-1)+0.6496\times1+0.7514\times(-1)=-0.5246$
故分类器 $G(x)=\operatorname{sign}\left[f_{3}(x)\right]$ 的预测结果为-1，预测正确

于是得到最终分类器为： $G(x)=\operatorname{sign}\left[f_{3}(x)\right]=\operatorname{sign}\left[0.4236 G_{1}(x)+0.6496 G_{2}(x)+0.7514 G_{3}(x)\right]$

四、代码实例

4.1、红酒数据集导入及简单介绍

# 引入数据科学相关工具包：
import numpy as np
import pandas as pd 

# 加载训练数据：         
wine = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data",header=None)
wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash', 'Alcalinity of ash','Magnesium', 'Total phenols','Flavanoids', 'Nonflavanoid phenols', 
                'Proanthocyanins','Color intensity', 'Hue','OD280/OD315 of diluted wines','Proline']

# 数据查看：
print("Class labels",np.unique(wine["Class label"]))
print(wine.head())

在这里插入图片描述

下面对数据做简单解读：

Class label： 分类标签，共三个类别
Alcohol： 酒精
Malic acid： 苹果酸
Ash： 灰
Alcalinity of ash： 灰的碱度
Magnesium： 镁
Total phenols： 总酚
Flavanoids： 黄酮类化合物
Nonflavanoid phenols： 非黄烷类酚类
Proanthocyanins： 原花青素
Color intensity： 色彩强度
Hue： 色调
OD280/OD315 of diluted wines： 稀释酒OD280 OD350
Proline： 脯氨酸

4.2、数据预处理及数据集划分

# 数据预处理
# 仅仅考虑2，3类葡萄酒，去除1类
wine = wine[wine['Class label'] != 1]
y = wine['Class label'].values
X = wine[['Alcohol','OD280/OD315 of diluted wines']].values

# 将分类标签变成二进制编码：
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

# 按8：2分割训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1,stratify=y)  # stratify参数代表了按照y的类别等比例抽样

4.3、使用单一决策树和Adaboost分别建模（基于sklearn）

单一决策树建模并预测：

# 使用单一决策树建模
from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(criterion='entropy',random_state=1,max_depth=1)
from sklearn.metrics import accuracy_score
tree = tree.fit(X_train,y_train)
y_train_pred = tree.predict(X_train)
y_test_pred = tree.predict(X_test)
tree_train = accuracy_score(y_train,y_train_pred)
tree_test = accuracy_score(y_test,y_test_pred)
print('Decision tree train/test accuracies %.3f/%.3f' % (tree_train,tree_test))

Adaboost（基本分类器为决策树）建模并预测：

# 使用sklearn实现Adaboost(基分类器为决策树)
'''
AdaBoostClassifier相关参数：
base_estimator：基本分类器，默认为DecisionTreeClassifier(max_depth=1)
n_estimators：终止迭代的次数
learning_rate：学习率
algorithm：训练的相关算法，{'SAMME'，'SAMME.R'}，默认='SAMME.R'
random_state：随机种子
'''
from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier(base_estimator=tree,n_estimators=500,learning_rate=0.1,random_state=1)
ada = ada.fit(X_train,y_train)
y_train_pred = ada.predict(X_train)
y_test_pred = ada.predict(X_test)
ada_train = accuracy_score(y_train,y_train_pred)
ada_test = accuracy_score(y_test,y_test_pred)
print('Adaboost train/test accuracies %.3f/%.3f' % (ada_train,ada_test))

预测结果：
在这里插入图片描述
参考：DataWhale/ensemble-learning

浅浅望

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Adaboost算法

一、基本原理的简单介绍Adaboost是在boosting的基础上进一步完善的，主要解决boosting面临的两个问题：1.提高那些被前一轮分类器分类错误样本的权重，降低那些分类正确样本的权重；2.加大分类错误率低的分类器的权重，减小分类错误率高的分类器的权重。二、公式推导假设给定一个二分类的训练数据集：T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdo
复制链接

扫一扫

专栏目录