前言
浅浅介绍一些scikit-learn 自带的数据集,给大伙的学习提供一丢丢帮助。
一、scikit-learn 自带的数据集
1.一些例子
序号 | 数据集名称 | 主要调用方式 | 数据描述 |
---|---|---|---|
1 | 鸢尾花数据集 | Load_iris() | 用于多分类任务的数据集 |
2 | 波士顿房价数据集 | Load_boston() | 经典的用于回归任务的数据集 |
3 | 糖尿病数据集 | Load_diabetes() | 经典的用于回归任务的数据集 |
4 | 手写数字数据集 | Load_digits() | 用于多分类任务的数据集 |
5 | 乳腺癌数据集 | Load_breast_cancer() | 简单经典的用于二分类任务的数据集 |
6 | 体能训练数据集 | Load_linnerud() | 经典的用于多变量回归任务的数据集 |
2.导入数据例子
代码如下(示例):
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn import svm
iris = load_iris()
iris.data.shape, iris.target.shape
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=.4, random_state=0) # 制作训练数据和测试数据
X_train.shape, y_train.shape
X_test.shape, y_test.shape
iris.data[:5]
X_train[:5]