【sklearn第七讲】数据集加载工具

本文介绍了scikit-learn中数据集的加载工具,包括通用数据集API、示例数据集、样本图像、样本生成器以及如何从mldata.org下载数据集。scikit-learn提供小规模示例数据集用于快速测试算法,还包含随机样本生成器用于创建人造数据集,方便机器学习算法的评估和实验。
摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

sklearn.datasets包内置了一些小规模的示例数据集。为了评估数据规模的影响,控制数据的统计属性(典型的是特征的相关性和忠实度),也可以产生合成数据。该包也可以作为评价机器学习算法性能的基准数据集的所在。

通用数据集 API

对于不同类型的数据集,有三个不同类型的数据集接口。最简单的是样本图像接口。数据集生成函数和svmlight加载器共享一个简化接口,返回一个元组(X, y). 该元组包括一个n_samples * n_features numpy数组X, 一个长度为n_samples, 包括目标变量y的数组。

示例数据集(toy datasets)、真实数据集和来自mldata.org的数据集,结构更加复杂。这些函数返回类字典的对象,至少包括两项:一个形如n_samples * n_features的数组,拥有data键;一个长度为n_samples的numpy数组,拥有target键。
数据集也包括DESCR描述,一些数据集包括feature_names and target_names.

示例数据集

scikit-learn自带一些小的标准数据集,并不需要从外部网站下载任何文件。

这里写图片描述

这些数据集可以用来快速检验不同算法的表现,然而,因为数据规模太小,

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值