机器学习实验五 AdaBoost

实验要求

1.加载 sklearn 自带的数据集,使用 DataFrame 形式探索数据。
2.划分训练集和测试集,检查训练集和测试集的平均癌症发生率。
3.配置模型,训练模型,模型预测,模型评估。
(1)构建一棵最大深度为 2 的决策树弱学习器,训练、预测、评估。
(2)再构建一个包含 50 棵树的 AdaBoost 集成分类器(步长为 3),训练、预测、评估。
参考:将决策树的数量从 1 增加到 50,步长为 3。输出集成后的准确度。
(3)将(2)的性能与弱学习者进行比较。
4.绘制准确度的折线图,x 轴为决策树的数量,y 轴为准确度。

实验过程

1.对该题目的理解

本项目是利用AdaBoost算法来进行肿瘤预测,先进行数据探索,然后划分训练集和测试集,然后进行模型的训练预测和评估,再绘制准确度折线图。

2.实现过程

(1)导入包。

代码如下:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from sklearn import metrics

(2)加载 sklearn 自带的数据集,使用 DataFrame 形式探索数据。

代码如下:

breast=load_breast_cancer()
data=pd.DataFrame(breast.data)
target=pd.DataFrame(breast.target)
feature_names=pd.DataFrame(breast.feature_names)
print("data:",data)
print("target:",target)

(3)划分训练集和测试集,检查训练集和测试集的平均癌症发生率。

代码如下:

train_X,test_X,train_y,test_y=train_test_split(data,target,test_size=0.2)

(4)配置模型,训练模型,模型预测,模型评估。

代码如下:

AdaBoost2=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=3))
AdaBoost2.fit(train_X,train_y)
pred2=AdaBoost2.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred2))
print("模型的评估报告:",metrics.classification_report(test_y,pred2))
AdaBoost3=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=50,learning_rate=3) 
AdaBoost3.fit(train_X,train_y)
pred3=AdaBoost3.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred3))
print("模型的评估报告:",metrics.classification_report(test_y,pred3))
print("弱学习者的均方误差:",round(metrics.mean_squared_error(test_y,pred2),2))
print("决策树的均方误差:",round(metrics.mean_squared_error(test_y,pred3),2))

(5)绘制准确度的折线图,x 轴为决策树的数量,y 轴为准确度。

代码如下:

score_all=[]
for i in range(1,50):
    AdaBoost4=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=i,learning_rate=3) 
    AdaBoost4.fit(train_X,train_y)
    pred4=AdaBoost4.predict(test_X)
    score_all.append(metrics.accuracy_score(test_y,pred4))
    
plt.figure(figsize=(10,6))
plt.plot(range(1,50),score_all)
plt.xlabel(u'TreeSum')
plt.ylabel(u'sorce')
plt.title(u'The soulution of TreeSum and sorce')
plt.show()

3.遇到的问题及解决办法

(1)问题:如何构建一个包含50棵树的AdaBoost集成分类器(步长为3)?

这里用for i in range(1, 50, 3)来遍历决策树数量的每种取值,分别进行构建、训练、预测并进行评估,将准确度存入数组再进行绘制。

实验结果

1.加载 sklearn 自带的数据集,使用 DataFrame 形式探索数据。

 

2.配置模型,训练模型,模型预测,模型评估。

3.绘制准确度的折线图,x 轴为决策树的数量,y 轴为准确度。

实验总结

1.通过此实验了解了集成学习是一种算法框架,是将多种基础算法集合在一起共同决策

2. Adaboost 算法的流程是先训练一个基分类器然后增加误分类的样本的权重,降低正确分类的样本的权重。然后使用最新的带权重样本训练第二个模型,继续更新权重,不断循环。最终结果对所有模型的结果进行加权相加来得到。

3.学会了如何绘制折线图,其中plot中参数的含义分别是横轴值,纵轴值,线的形状,颜色,透明度,线的宽度和标签。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shallen.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值