实验3 决策树分类实验下
一、实验要求
在计算机上验证和测试招聘数据的决策树分类实验,理解基尼系数生成决策树,同时理解决策树的参数。
- 实验目的
1、掌握决策树分类的原理
2、能够实现决策树分类算法;
3、掌握决策树的参数设置;
三、实验内容
实验步骤
- 请阅读tree.ipynb,生成makemoon数据,分别测试,KNN,贝叶斯和决策树,对这个样本数据的分类观察分类的区别。
KNN:分类效果较好,既不过拟合又不欠拟合,分界线较能契合实际分类情况
贝叶斯:分类效果欠拟合,一些细节学习不到位,分界线趋近曲线形状
决策树:容易产生过拟合,需要调节参数加以限制,分界线由平行于边框的直线构成
同时对决策树的下面5个参数进行调节,找到决策树分类相对最优的参数组合。
2.请阅读ensemble代码,生成make_moons和make_circles两种非线性数据,分别用KNN,贝叶斯、决策树和随机森林对其进行分类,画出分类边界线,同时两种数据集用不同分类器和不同交叉验证方法得到的平均准确率表格。
Circles数据集
在Circles数据集中,四种分类器产生的分界线都能较好区分两个类别的数据,准确率也都较高,其中KNN和随机森林分类器的准确率位于榜首
Moons数据集
在Moons数据集中,KNN分类器产生的分界线较能契合数据的分布,准确率最高,不过KNN的缺点在于运行比较耗时
朴素贝叶斯分类器产生的分界线成一条直线,明显不能较好契合数据的分布,准确率偏低
决策树分类器产生的分界线由平行于边框的直线构成,不能较好契合数据的分布,准确率偏低
随机森林产生的分类器产生的分界线较能契合数据的分布,准确率较高
四、实验总结
1.掌握了决策树分类的原理
2.能够实现决策树分类算法;
3.理解了决策树的参数设置;
4. 对四种分类器产生的分界线和准确率有了一定了解
5. 对不同的交叉验证方式有了大致了解