机器学习实验五 AdaBoost

shallen.

已于 2023-03-06 19:08:20 修改

阅读量1.1k

点赞数

分类专栏：机器学习实验文章标签：算法机器学习人工智能

于 2023-03-06 19:06:08 首次发布

本文链接：https://blog.csdn.net/weixin_51556077/article/details/129368371

版权

机器学习实验专栏收录该内容

9 篇文章 14 订阅

订阅专栏

实验要求

1.加载 sklearn 自带的数据集，使用 DataFrame 形式探索数据。

2.划分训练集和测试集，检查训练集和测试集的平均癌症发生率。

3.配置模型，训练模型，模型预测，模型评估。

（1）构建一棵最大深度为 2 的决策树弱学习器，训练、预测、评估。

（2）再构建一个包含 50 棵树的 AdaBoost 集成分类器（步长为 3），训练、预测、评估。

参考：将决策树的数量从 1 增加到 50，步长为 3。输出集成后的准确度。

（3）将（2）的性能与弱学习者进行比较。

4.绘制准确度的折线图，x 轴为决策树的数量，y 轴为准确度。

实验过程

1.对该题目的理解

本项目是利用AdaBoost算法来进行肿瘤预测，先进行数据探索，然后划分训练集和测试集，然后进行模型的训练预测和评估，再绘制准确度折线图。

2.实现过程

（1）导入包。

代码如下：

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from sklearn import metrics

（2）加载 sklearn 自带的数据集，使用 DataFrame 形式探索数据。

代码如下：

breast=load_breast_cancer()
data=pd.DataFrame(breast.data)
target=pd.DataFrame(breast.target)
feature_names=pd.DataFrame(breast.feature_names)
print("data:",data)
print("target:",target)

（3）划分训练集和测试集，检查训练集和测试集的平均癌症发生率。

代码如下：

train_X,test_X,train_y,test_y=train_test_split(data,target,test_size=0.2)

（4）配置模型，训练模型，模型预测，模型评估。

代码如下：

AdaBoost2=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=3))
AdaBoost2.fit(train_X,train_y)
pred2=AdaBoost2.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred2))
print("模型的评估报告:",metrics.classification_report(test_y,pred2))
AdaBoost3=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=50,learning_rate=3) 
AdaBoost3.fit(train_X,train_y)
pred3=AdaBoost3.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred3))
print("模型的评估报告:",metrics.classification_report(test_y,pred3))
print("弱学习者的均方误差：",round(metrics.mean_squared_error(test_y,pred2),2))
print("决策树的均方误差：",round(metrics.mean_squared_error(test_y,pred3),2))

（5）绘制准确度的折线图，x 轴为决策树的数量，y 轴为准确度。

代码如下：

score_all=[]
for i in range(1,50):
    AdaBoost4=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=i,learning_rate=3) 
    AdaBoost4.fit(train_X,train_y)
    pred4=AdaBoost4.predict(test_X)
    score_all.append(metrics.accuracy_score(test_y,pred4))
    
plt.figure(figsize=(10,6))
plt.plot(range(1,50),score_all)
plt.xlabel(u'TreeSum')
plt.ylabel(u'sorce')
plt.title(u'The soulution of TreeSum and sorce')
plt.show()

3.遇到的问题及解决办法

（1）问题：如何构建一个包含50棵树的AdaBoost集成分类器（步长为3）？

这里用for i in range(1, 50, 3)来遍历决策树数量的每种取值，分别进行构建、训练、预测并进行评估，将准确度存入数组再进行绘制。

实验结果

1.加载 sklearn 自带的数据集，使用 DataFrame 形式探索数据。

2.配置模型，训练模型，模型预测，模型评估。

3.绘制准确度的折线图，x 轴为决策树的数量，y 轴为准确度。

实验总结

1.通过此实验了解了集成学习是一种算法框架，是将多种基础算法集合在一起共同决策。

2. Adaboost 算法的流程是先训练一个基分类器然后增加误分类的样本的权重，降低正确分类的样本的权重。然后使用最新的带权重样本训练第二个模型，继续更新权重，不断循环。最终结果对所有模型的结果进行加权相加来得到。

3.学会了如何绘制折线图，其中plot中参数的含义分别是横轴值，纵轴值，线的形状，颜色，透明度,线的宽度和标签。

shallen.

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习实验五 AdaBoost

实验目的1.理解并掌握集成学习中 AdaBoost 算法。2.能够基于 AdaBoost 算法实现鸢尾花分类。3.能够举一反三，基于 AdaBoost 算法实现肿瘤预测。二、实验内容1.加载 sklearn 自带的数据集，使用 DataFrame 形式探索数据。2.划分训练集和测试集，检查训练集和测试集的平均癌症发生率。 3.配置模型，训练模型，模型预测，模型评估。4.绘制准确度的折线图，x 轴为决策树的数量，y 轴为准确度。
复制链接

扫一扫