使用scikit-learn构建数据集

本文介绍了如何使用scikit-learn构建数据集,包括内置的简单数据集如iris、boston等,真实数据集如fetch_california_housing,模拟数据集如make_blobs、make_classification,以及openml.org数据集的下载方法。这些资源对于机器学习初学者进行模型训练和验证非常有用。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

数据是机器学习的必备条件,输入数据的质量高低,是影响机器学习模型效果的决定性因素条件之一。对于机器学习的学习者而言,拥有一个数据集来练手是第一步。在scikit-learn中,提供了多种构建数据的方法

1. 简单数据集

在机器学习领域,有很多常用的数据集,在scikit-learn中,内置了这些常用数据集,通过对应的函数可以直接加载,对于回归算法而言,常用数据集的加载函数如下

1. load_boston()

2. load_diabetes()

3. load_linnerud()

对于分类算法而言,常用数据集的加载函数如下

1. load_iris()

2. load_digits()

3. load_wine()

4. load_breast_cancer()

以load_iris为例,具体的用法如下

>>> from sklearn.datasets import *
>>> data = load_iris()
>>> data['data']
array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
...
)
>>> data['target']
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
        7.8800e+00]])

返回结果是一个类似字典的结构,data对应输入矩阵,每一行表示一个样本,每一列表示一个特征,target表示的是输入矩阵中的样本对应的标签。

也可以修改参数,分别返回data和taret两个数据,用法示意如下

>>> data, target = load_boston(return_X_y=True)

2. 真实数据集

这里的真实数据集也是经典的数据集之一,只不过数据量较大,所以没有内置在模块中,采用了从网络上下载的方式,对于回归算法而言,有以下加载函数

1. fetch_california_housing()

对于分类算法而言,有以下加载函数

1. fetch_olivetti_faces()

2. fetch_20newsgroups()

3. fetch_20newsgroups_vectorized()

4. fetch_lfw_people()

5. fetch_lfw_pairs()

6. fetch_covtype()

7. fetch_rcv1()

8. fetch_kddcup

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值