模块介绍
datasets模块包含一些常用的数据集,包括内置的数据集、网络上的数据集以及构造的数据集三类。
模块函数
1、内置数据集
一般是比较小的数据集。
函数 | 描述 |
---|---|
load_iris( ) | 鸢尾花数据集:3类、4个特征、150个样本 |
load_boston( ) | 波斯顿房价数据集:13个特征、506个样本 |
load_digits( ) | 手写数字集:10类、64个特征、1797个样本 |
load_breast_cancer( ) | 乳腺癌数据集:2类、30个特征、569个样本 |
load_diabets( ) | 糖尿病数据集:10个特征、442个样本 |
load_wine( ) | 红酒数据集:3类、13个特征、178个样本 |
2、网络数据集
大规模数据集,需要从网络上下载。
函数 | 描述 |
---|---|
fetch_olivetti_faces() | olivetti脸部图像数据集,400 * 64 * 64 |
fetch_20newsgroups() | 新闻分类数据集 |
fetch_lfw_people() | 带标签的人脸识别数据集 |
fetch_rcv1() | 路透社新闻预料数据集 |
3、生成数据集
函数 | 描述 |
---|---|
make_blobs() | 多类单标签数据集,为每个类分配一个或多个正太分布的点集 |
make_classification() | 多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等 |
make_gaussian-quantiles() | 将一个单高斯分布的点集划分为两个数量均等的点集,作为两类 |
make_hastie-10-2() | 产生一个相似的二元分类数据集,有10个维度 |
make_circle() | 产生同心圆型的二维二元分类 (标签为 0, 1) 数据集来测试某些算法的性能 |
make_moom() | 产生月牙形的二维二元分类 (标签为 0, 1) 数据集 |