决策树分类实验

实验对比了KNN、贝叶斯和决策树在make_moon和make_circles数据集上的分类效果。KNN表现优秀但计算耗时,贝叶斯欠拟合,决策树易过拟合需调整参数。随机森林则展现了良好的分类能力和准确性。实验加深了对决策树原理、参数设置及分类器优劣的理解。
摘要由CSDN通过智能技术生成

实验3 决策树分类实验下

   

一、实验要求

在计算机上验证和测试招聘数据的决策树分类实验,理解基尼系数生成决策树,同时理解决策树的参数。

  • 实验目的

1、掌握决策树分类的原理

2、能够实现决策树分类算法;

3、掌握决策树的参数设置;

三、实验内容

实验步骤

  1. 请阅读tree.ipynb,生成makemoon数据,分别测试,KNN,贝叶斯和决策树,对这个样本数据的分类观察分类的区别。

KNN:分类效果较好,既不过拟合又不欠拟合,分界线较能契合实际分类情况

贝叶斯:分类效果欠拟合,一些细节学习不到位,分界线趋近曲线形状

决策树:容易产生过拟合,需要调节参数加以限制,分界线由平行于边框的直线构成

同时对决策树的下面5个参数进行调节,找到决策树分类相对最优的参数组合。

2.请阅读ensemble代码,生成make_moons和make_circles两种非线性数据,分别用KNN,贝叶斯、决策树和随机森林对其进行分类,画出分类边界线,同时两种数据集用不同分类器和不同交叉验证方法得到的平均准确率表格。

Circles数据集

Circles数据集中,四种分类器产生的分界线都能较好区分两个类别的数据,准确率也都较高,其中KNN和随机森林分类器的准确率位于榜首

Moons数据集

在Moons数据集中,KNN分类器产生的分界线较能契合数据的分布,准确率最高,不过KNN的缺点在于运行比较耗时

朴素贝叶斯分类器产生的分界线成一条直线,明显不能较好契合数据的分布,准确率偏低

决策树分类器产生的分界线由平行于边框的直线构成,不能较好契合数据的分布,准确率偏低

随机森林产生的分类器产生的分界线较能契合数据的分布,准确率较高

四、实验总结

1.掌握了决策树分类的原理

2.能够实现决策树分类算法;

3.理解了决策树的参数设置;

4. 对四种分类器产生的分界线和准确率有了一定了解

5. 对不同的交叉验证方式有了大致了解

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值