机器学习起步---鸢尾花分类1

最新推荐文章于 2022-05-24 21:09:20 发布

Kiiato

最新推荐文章于 2022-05-24 21:09:20 发布

阅读量462

点赞数 1

分类专栏：机器学习入门文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_43897389/article/details/106767095

版权

2 篇文章 0 订阅

订阅专栏

本文基于Jupyter notebook网页式交互开发环境，前提是配置好相应的软件以及路径，推荐使用Anaconda，它是免费的开源项目，下载方便，并且预置了Jupyter notebook应用程序和Numpy，Scipy，matplotlib，pandas，IPython，scikit-learn等诸多科学计算包
分析的对象是一个已经封装好的数据集合，文本重点是对于该对象结构的剖析，以及使用既有算法对其训练，观察，预测和评估的一系列操作。而不涉及如何从其他地方提取数据，生成新的数据集**

load_iris()是scikit-learn中包含的典型数据集，供初学者使用。它与字典十分类似，首先提取里面的键值对，再根据我的理解来分析各个成分的作用：

from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("该数据集中，所有键值对的键参数：")
print(iris_dataset.keys())

运行结果：

我们分别运行一下每个Key对应的数组，看看会发生什么

print(iris_dataset['DESCR'][:193]+"\n...")

运行结果：
在这里插入图片描述
‘DESCR’力求通过文本的方式让使用者更好的了解此数据集

print("花的品种：")
print(iris_dataset['target_names'])

运行结果：
在这里插入图片描述
‘target_name’对应的值是对于预测结果的文字描述

print("每束花都是啥类型的？：\n")
print(iris_dataset['target'])

运行结果：
在这里插入图片描述
’target‘对应的值是该数据集中所有对象的评判结果
不嫌麻烦的话，可以看出这个值也符合’DESCR‘中的描述

print("花型特征：")
print(iris_dataset["feature_names"])

运行结果：
在这里插入图片描述
’feature_names’是对于所以特征值的文字描述
对于数据的处理和可视化有专门的函数，这里为了帮助理解，我们列举出集合中前十个”鸢尾花“的特征。

print("First ten rows of data")
print(iris_dataset['data'][:10])

运行结果：
在这里插入图片描述
这个Key叫data更符合机器学习的思想，像target一样叫feature的话，可能会让人觉得摸不着头脑。

print(iris_dataset['filename'])

运行结果：
在这里插入图片描述
这是该数据集的路径，这也进一步佐证了它是sklearn包下的一个既定文件。自主应用机器学习问题时，所定义的数据也该参考上述格式。

时间实在有限，懒狗一条，后面会陆陆续续完成对整个鸢尾花数据集的机器学习步骤总结。

关注