Python机器学习【二】 - 决策树
原文地址:Python机器学习【二】 - 决策树
上一篇基于sklearn Python库创建K近邻模型(KNN)实现了机器学习Hello World示例,KNN属于最简单的分类算法,简单来讲就是当预测一个新的值时,根据它最近的K个点是什么类型来判断属于哪个类别。掌握了KNN也算是简单入门机器学习了,学习新东西总是要由浅入深,这次准备学习另一种分类算法:决策树
一、决策树
决策树算法采用树形结构,使用层层推理来实现最终的分类,是一种基于 if-then-else 规则的有监督学习算法,决策树的这些规则通过训练得到,而不是人工制定的。
有监督学习: 给定数据,预测标签,它从有标记的训练数据中推导出预测函数。
无监督学习: 给定数据,寻找隐藏的结构,它从无标记的训练数据中推断结论。
我们的生活中有很多决策树的案例,举个简单栗子:银行要对客户进行信用登记评估,可能会根据有无逾期记录、有无逾期未还款记录、有无房产等指标进行评估,得到下面最简单的模型:
二、目标
已知有178个葡萄酒样本数据,每个样本采样酒精、苹果酸、灰、灰的碱性、镁、总酚等共13个特征,葡萄酒分为三个类型,分别用class_0、class_1、class_2表示。
178个葡萄酒中:class_0有59个,class_1有71个,class_2有48个,我们仍然取178条数据的70%作为训练数据,经过训练模型、模型评估,预测剩余30%数据样本的类型,计算出准确率以及查看学习生成的决策树。
三、实现步骤
- 安装sklearn