数据集的调用

初次使用需下载scikit-learn这个第三方库

pip3 install scikit-learn

数据(个人理解,通俗大白话):数据由特征值和目标值组成,可理解为由一些额定特征值得到对应的目标值,以西瓜书内为例:根据西瓜声响、颜色、瓜蒂等特征可判断西瓜是否成熟,由一堆这样的数据构成数据集,数据集分为两个部分(训练集和测试集),训练集内数据用来训练我们的模型,测试集即用来判断这个模型的好坏。

小规模数据集的调用

小规模数据使用load方法进行加载,不管是load还是fetch,返回值都是bunch(继承自字典):含有五个键
1、data:特征数据数组
2、feature:目标特征数组
3、feature_names:特征值名称
4、target_names:目标值名称
5、DESCR:记录一些数据的基本信息(一般很少使用)
举个栗子:在sklearn中调用鸢尾花数据集(小规模数据集,含有150条数据)

from sklearn.datasets import load_iris
iris = load_iris()
print(iris.data)     # 显示特征值数据
print(iris.data.shape)   # 显示矩阵形状,150×4
print(iris.target)    # 显示目标值数据
print(f"特征值名称:{iris.feature_names}")
print(f"目标值名称:{iris.target_names}")

同理可以使用load_*调用sklearn.datasets中其他小规模数据集。

大规模数据集的调用

在sklearn中可以使用fetch_*下载较大规模数据集,需要连接网络在线下载。

sklearn.datasets.fetch_*(data_home, subset=None, download_if_missing=True)

data_home:下载的数据集存放地址,默认为同级目录
subset:想要获取哪些内容,一般是全部获取,即subset= ‘all’
download_if_missing:设为True,如果文件不存在,则下载
它的返回值和load_*一样,都是一个bunch型数据。
举个栗子:以20_newsgroups新闻案例

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home=r'E:\Python_learning', subset='all',download_if_missing=False)
# 查看数据和上方load_*类似,此处不在赘述。

同理可以使用fetch_*调用sklearn.datasets中其他较大规模数据集。

  • 16
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值