【sklearn第七讲】数据集加载工具

最新推荐文章于 2025-04-04 21:13:18 发布

原创

最新推荐文章于 2025-04-04 21:13:18 发布 · 2.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文介绍了scikit-learn中数据集的加载工具，包括通用数据集API、示例数据集、样本图像、样本生成器以及如何从mldata.org下载数据集。scikit-learn提供小规模示例数据集用于快速测试算法，还包含随机样本生成器用于创建人造数据集，方便机器学习算法的评估和实验。

机器学习训练营——机器学习爱好者的自由交流空间（入群联系qq：2279055353）

sklearn.datasets包内置了一些小规模的示例数据集。为了评估数据规模的影响，控制数据的统计属性（典型的是特征的相关性和忠实度），也可以产生合成数据。该包也可以作为评价机器学习算法性能的基准数据集的所在。

通用数据集 API

对于不同类型的数据集，有三个不同类型的数据集接口。最简单的是样本图像接口。数据集生成函数和svmlight加载器共享一个简化接口，返回一个元组(X, y). 该元组包括一个n_samples * n_features numpy数组X, 一个长度为n_samples, 包括目标变量y的数组。

示例数据集(toy datasets)、真实数据集和来自mldata.org的数据集，结构更加复杂。这些函数返回类字典的对象，至少包括两项：一个形如n_samples * n_features的数组，拥有data键；一个长度为n_samples的numpy数组，拥有target键。
数据集也包括DESCR描述，一些数据集包括feature_names and target_names.

示例数据集

scikit-learn自带一些小的标准数据集，并不需要从外部网站下载任何文件。

这里写图片描述

这些数据集可以用来快速检验不同算法的表现，然而，因为数据规模太小，它们并不能代表算法对来自真实世界的数据的真正表现。

样本图像

scikit也自带了几个JPEG图像样本数据集。这些数据集可以被用来检验算法和pipeline 2D数据。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。