数据集的调用

最新推荐文章于 2024-07-18 14:22:38 发布

张起灵ovo

最新推荐文章于 2024-07-18 14:22:38 发布

阅读量507

点赞数 16

分类专栏：机器学习入门文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_50164178/article/details/139308859

版权

机器学习入门专栏收录该内容

16 篇文章 0 订阅

订阅专栏

初次使用需下载scikit-learn这个第三方库

pip3 install scikit-learn

数据(个人理解,通俗大白话):数据由特征值和目标值组成，可理解为由一些额定特征值得到对应的目标值，以西瓜书内为例：根据西瓜声响、颜色、瓜蒂等特征可判断西瓜是否成熟，由一堆这样的数据构成数据集，数据集分为两个部分(训练集和测试集），训练集内数据用来训练我们的模型，测试集即用来判断这个模型的好坏。

小规模数据集的调用

小规模数据使用load方法进行加载，不管是load还是fetch，返回值都是bunch(继承自字典)：含有五个键
1、data:特征数据数组
2、feature:目标特征数组
3、feature_names：特征值名称
4、target_names:目标值名称
5、DESCR:记录一些数据的基本信息(一般很少使用)
举个栗子：在sklearn中调用鸢尾花数据集(小规模数据集，含有150条数据)

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data)     # 显示特征值数据
print(iris.data.shape)   # 显示矩阵形状，150×4
print(iris.target)    # 显示目标值数据
print(f"特征值名称:{iris.feature_names}")
print(f"目标值名称:{iris.target_names}")

同理可以使用load_*调用sklearn.datasets中其他小规模数据集。

大规模数据集的调用

在sklearn中可以使用fetch_*下载较大规模数据集，需要连接网络在线下载。

sklearn.datasets.fetch_*(data_home, subset=None, download_if_missing=True)

data_home:下载的数据集存放地址，默认为同级目录
subset:想要获取哪些内容，一般是全部获取，即subset= ‘all’
download_if_missing:设为True,如果文件不存在，则下载
它的返回值和load_*一样，都是一个bunch型数据。
举个栗子：以20_newsgroups新闻案例

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home=r'E:\Python_learning', subset='all',download_if_missing=False)
# 查看数据和上方load_*类似，此处不在赘述。