机器学习起步---鸢尾花分类1

  • 本文基于Jupyter notebook网页式交互开发环境,前提是配置好相应的软件以及路径,推荐使用Anaconda,它是免费的开源项目,下载方便,并且预置了Jupyter notebook应用程序和Numpy,Scipy,matplotlib,pandas,IPython,scikit-learn等诸多科学计算包

  • 分析的对象是一个已经封装好的数据集合,文本重点是对于该对象结构的剖析,以及使用既有算法对其训练,观察,预测和评估的一系列操作。而不涉及如何从其他地方提取数据,生成新的数据集**

初识数据

load_iris()是scikit-learn中包含的典型数据集,供初学者使用。它与字典十分类似,首先提取里面的键值对,再根据我的理解来分析各个成分的作用:

from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("该数据集中,所有键值对的键参数:")
print(iris_dataset.keys())

运行结果:

我们分别运行一下每个Key对应的数组,看看会发生什么

print(iris_dataset['DESCR'][:193]+"\n...")

运行结果:
在这里插入图片描述
‘DESCR’力求通过文本的方式让使用者更好的了解此数据集

print("花的品种:")
print(iris_dataset['target_names'])

运行结果:
在这里插入图片描述
‘target_name’对应的值是对于预测结果的文字描述

print("每束花都是啥类型的?:\n")
print(iris_dataset['target'])

运行结果:
在这里插入图片描述
’target‘对应的值是该数据集中所有对象的评判结果
不嫌麻烦的话,可以看出这个值也符合’DESCR‘中的描述

print("花型特征:")
print(iris_dataset["feature_names"])

运行结果:
在这里插入图片描述
’feature_names’是对于所以特征值的文字描述
对于数据的处理和可视化有专门的函数,这里为了帮助理解,我们列举出集合中前十个”鸢尾花“的特征。

print("First ten rows of data")
print(iris_dataset['data'][:10])

运行结果:
在这里插入图片描述
这个Key叫data更符合机器学习的思想,像target一样叫feature的话,可能会让人觉得摸不着头脑。

print(iris_dataset['filename'])

运行结果:
在这里插入图片描述
这是该数据集的路径,这也进一步佐证了它是sklearn包下的一个既定文件。自主应用机器学习问题时,所定义的数据也该参考上述格式。

时间实在有限,懒狗一条,后面会陆陆续续完成对整个鸢尾花数据集的机器学习步骤总结。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值