概述:
数据集的分析可以简单的分为两步:
1、根据已有的
特征数据
建立模型。
2、在未来收集到
新的特征数据
时,可以根据建立的模型来判断新的数据属于哪一类。
而iris数据集包括150朵、三类(setosa、versicolor、virginica)鸢尾花的花萼和花瓣长度宽度的数据。
那么对应上面的两步,我们要做的就是:
1、根据已有的
三种
鸢尾花
花萼和花瓣的长度与宽度数据
建立模型。
2、在未来收集到
新的鸢尾花数据
时,可以根据模型来
判断
所收集的是哪种类型的鸢尾花
(setosa,
versicolor,
virginica)。
在这个过程中,我们会用到两个工具:KNN最邻近分类算法和train_test_split。
工具准备:
KNN最邻近分类算法:
作用:判断一个未知类型的数据属于哪一类。
判断步骤:
1、输入样本数据集。
2、输入要判断类型的数据(X)。
3、找出离X最近的k个样本。
4、根据k个样本数据的特征判断x是什么类型。
举例:(数据是我杜撰的,主要是传意用)
1、输入样本数据集→输入若干个苹果和桃子的体积和重量的数据。
2、输入要判断类型的数据(X)→输入未知种类的水果的重量和体积数据(图中五角星)。
3、找出离X最近的k个样本→找到最近的三个样本(这里k=3,最近的三个样本已用线连出)。