- 本文介绍
sklearn.datasets
模块 - 本文是从jupyter文档转换来的,某个代码块不一定能直接复制运行,代码输出结果统一以注释形式添加在代码最后
文章目录
0. 前置
0.1 关于Sklearn
- Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,是一个优秀且常用的传统机器学习方法框架。与之相比,PyTorch、TensorFlow等属于深度学习框架。
- Sklearn自带的官方文档非常优秀,API 设计良好,适合新手上路
- Sklearn 包含有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理。
0.2 Bunch类型
-
Bunch
是sklearn.datasets.base
中的数据类型 -
Bunch
类似字典,也是由键值对组成,和字典区别在于其键值可以被实例对象当作属性使用from sklearn import datasets buch = datasets.base.Bunch(A=1,B=2,C=3) print(type(buch)) # bunch类型 print(buch) # 和字典类似 print(buch['A']) # 和字典类似 print(buch.A) # 和字典不同 ''' <class 'sklearn.utils.Bunch'> {'A': 1, 'B': 2, 'C': 3} 1 1 '''
-
加载sklearn中的数据集时,它们并不是直接转换成
ndarray
数组。而是转换为一个Bunch
对象,通常用其中的.data
成员和.target
成员分别表示样本集和标签集,他们是ndarray
数组from sklearn import datasets boston_data = datasets.load_boston() print(type(boston_data)) print(type(boston_data.data)) print(type(boston_data.target)) print(type(boston_data['data'])) print(type(boston_data['target'])) ''' <class 'sklearn.utils.Bunch'> <class 'numpy.ndarray'> <class 'numpy.ndarray'> <class 'numpy.ndarray'> <class 'numpy.ndarray'> '''
1. sklearn.datasets模块
-
进行机器学习时,我们需要一些训练数据。
sklearn.dataset
模块就是Scikit-Learn框架自带的数据集模块,可以方便快速地获取训练数据,测试算法性能 -
sklearn 的数据集可以分为以下几种,常用的是前三种
数据集类型 加载函数 自带的小数据集(packaged dataset) sklearn.datasets.load_<name>
可在线下载并加载的大型数据集(Downloaded Dataset) sklearn.datasets.fetch_<name>
生成的数据集(Generated Dataset) sklearn.datasets.make_<name>
svmlight
/libsvm
格式的数据集sklearn.datasets.load_svmlight_file(...)
从data.org购买并在线下载获取的数据集 sklearn.datasets.fetch_mldata(...)
-
第一类 packaged dataset 和第二类 Downloaded Dataset 的所有加载函数都返回一个
Bunch
对象,里面至少包含以下两项- key为
data
的成员(20news groups数据集除外),这是尺寸为(n_samples,n_features)
的ndarray
数组,存储样本数据 - key为
target
的成员,这是尺寸为(n_samples,)
的ndarray
数组,存储每个样本对应的标签数据。
通过将加载函数的传入参数设置为
return_X_y = True
,几乎所有这些函数都可以将输出约束为元组(data,target)
- key为
-
第三类 Generated Dataset 的加载函数返回一个元组
(X,y)
,形式和前两类设置参数return_X_y=True
时返回的(data,target)
一致
-
1.1 小型数据集
-
这是sklearn自带的小型标准数据集,这些数据集有助于快速在scikit中测试各种算法。然而,它们数据规模往往太小,无法代表真实世界的机器学习任务。
-
加载方式:
dataset = sklearn.datasets.load_<name>()
-
常用的小数据集:
名字 导入方法 介绍 任务 数据规模 波士顿房价 load_boston(return_X_y=False) 加载和返回一个boston房屋价格的数据集 回归 506 x 13 乳腺癌 load_breast_cancer(return_X_y=False) 加载和返回一个乳腺癌“恶性/良性”(1/0)类别型数据集 二分类 569 x 30 糖尿病 load_diabetes(return_X_y=False) 加载和返回一个糖尿病数据集 回归 442 x 10 手写数据 load_digits(return_X_y=False) 加载和返回一个手写图片数据集 多分类 1797 x 64 鸢尾花 load_iris(return_X_y=False) 加载和返回一个鸢尾花数据集 多分类 150 x 4 红酒 load_wine(return_X_y=False) 加载和返回一个红酒数据集 多分类 178 x 13 体能训练 load_linnerud(return_X_y=False) 加载和返回健身数据集 回归 20 x 3
1.1.1 波士顿房价数据集(回归)
-
用于回归
-
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),和与之对应的包含房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据,因此,波士顿房价数据集能够应用到回归问题上。使用
.load_boston(return_X_y=False)
方法来导出数据,其中参数return_X_y
控制输出数据的结构,若选为True
,则将因变量和自变量独立导出,否则默认为整体导出from sklearn import datasets boston_data = datasets.load_boston() # 整体导出 X,y = datasets.load_boston(return_X_y = True) # 独立导出 #print(boston_data.DESCR) # 描述文档 print(dir(boston_data),'\n') # 数据集对象所含的成员 print(boston_data.data.shape,'\n') # 样本集形状 print(boston_data.target.shape,'\n') # 标签集形状 print(boston_data.data[:1],'\n') # 前3个样本 print(boston_data.target[:1],'\n') # 前3个标签 print(boston_data.feature_names,'\n') # 特征名 print(boston_data.filename,'\n') # 数据库文件路径 print(X.shape) # 独立导出的样本集 print(y.shape) # 独立导出的标签集 ''' ['DESCR', 'data', 'feature_names', 'filename', 'target'] (506, 13) (506,) [[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01 4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]] [24.] ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT'] D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\boston_house_prices.csv (506, 13) (506,) '''
1.1.2 乳癌数据集(二分类)
-
用于二分类,良性和恶性
-
这个数据集包含了威斯康辛州记录的569个病人的乳腺癌“恶性/良性”(1/0)类别型数据(训练目标),以及与之对应的30个维度的生理指标数据;因此这是个非常标准的二类判别数据集,在这里使用
.load_breast_cancer(return_X_y)
来导出数据from sklearn import datasets breast_data = datasets.load_breast_cancer() # 整体导出 X,y = datasets.load_breast_cancer(return_X_y = True) # 独立导出 #print(breast_data.DESCR) # 描述 print(dir(breast_data),'\n') # 数据集对象所含的成员 print(breast_data.data.shape,'\n') # 样本集形状 print(breast_data.target.shape,'\n') # 标签集形状 print(breast_data.data[:1],'\n') # 第一个样本 print(breast_data.target[:1],'\n') # 第一个标签 print(breast_data.feature_names,'\n') # 特征名 print(breast_data.target_names,'\n') # 标签名 print(breast_data.filename,'\n') # 数据库文件路径 print(X.shape) # 独立导出的样本集 print(y.shape) # 独立导出的标签集 ''' ['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names'] (569, 30) (569,) [[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01 1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02 6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01 1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01 4.601e-01 1.189e-01]] [0] ['mean radius' 'mean texture' 'mean perimeter' 'mean area' 'mean smoothness' 'mean compactness' 'mean concavity' 'mean concave points' 'mean symmetry' 'mean fractal dimension' 'radius error' 'texture error' 'perimeter error' 'area error' 'smoothness error' 'compactness error' 'concavity error' 'concave points error' 'symmetry error' 'fractal dimension error' 'worst radius' 'worst texture' 'worst perimeter' 'worst area' 'worst smoothness' 'worst compactness' 'worst concavity' 'worst concave points' 'worst symmetry' 'worst fractal dimension'] ['malignant' 'benign'] D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\breast_cancer.csv (569, 30) (569,) '''
1.1.3 糖尿病数据集(回归)
-
用于回归
-
这是一个糖尿病的数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标,因此适合与回归任务;这里使用
.load_diabetes(return_X_y)
来导出数据from sklearn import datasets dbt_data = datasets.load_diabetes() # 整体导出 X,y = datasets.load_diabetes(return_X_y = True) # 独立导出 #print(dbt_data.DESCR) # 描述 print(dir(dbt_data),'\n') # 数据集对象所含的成员 print(dbt_data.data.shape,'\n') # 样本集形状 print(dbt_data.target.shape,'\n') # 标签集形状 print(dbt_data.data[:1],'\n') # 第一个数据 print(dbt_data.target[:1],'\n') # 第一个标签 print(dbt_data.feature_names,'\n') # 特征名 print(dbt_data.data_filename,'\n') # 样本文件路径 print(dbt_data.target_filename,'\n') # 标签文件路径 print(X.shape) # 独立导出的样本集 print(y.shape) # 独立导出的标签集 ''' ['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename'] (442, 10) (442,) [[ 0.03807591 0.05068012 0.06169621 0.02187235 -0.0442235 -0.03482076 -0.04340085 -0.00259226 0.01990842 -0.01764613]] [151.] ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'] D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_data.csv.gz D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_target.csv.gz (442, 10) (442,) '''
1.1.4 手写字体数据集(多分类)
-
用于多分类,0到9,图片大小8x8
-
这个数据集是经典的结构化数据,共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值,我们都知道图片在计算机的底层实际是矩阵,每个位置对应一个像素点,有二值图,灰度图,1600万色图等类型,在这个样本中对应的是灰度图,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字,这与我们之前接触的数据有很大区别;在这里我们使用
load_digits(return_X_y)
来导出数据:from sklearn import datasets digits_data = datasets.load_digits() X,y = datasets.load_digits(return_X_y = True) # 独立导出 #print(digits_data.DESCR) # 描述 print(dir(digits_data),'\n') # 数据集对象所含的成员 print(digits_data.data.shape,'\n') # 样本集形状 print(digits_data.target.shape,'\n') # 标签集形状 print(digits_data.data[:1],'\n') # 第一个数据 print(digits_data.target[:1],'\n') # 第一个标签 print(digits_data.feature_names,'\n') # 特征名 print(digits_data.target_names,'\n') # 标签名 print(digits_data.images[:1],'\n') # 以8x8形式显示图片数据,其实就是带格式的data print(X.shape) # 独立导出的样本集 print(y.shape) # 独立导出的标签集 ''' ['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names'] (1797, 64) (1797,) [[ 0. 0. 5. 13. 9. 1. 0. 0. 0. 0. 13. 15. 10. 15. 5. 0. 0. 3. 15. 2. 0. 11. 8. 0. 0. 4. 12. 0. 0. 8. 8. 0. 0. 5. 8. 0. 0. 9. 8. 0. 0. 4. 11. 0. 1. 12. 7. 0. 0. 2. 14. 5. 10. 12. 0. 0. 0. 0. 6. 13. 10. 0. 0. 0.]] [0] ['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7'] [0 1 2 3 4 5 6 7 8 9] [[[ 0. 0. 5. 13. 9. 1. 0. 0.] [ 0. 0. 13. 15. 10. 15. 5. 0.] [ 0. 3. 15. 2. 0. 11. 8. 0.] [ 0. 4. 12. 0. 0. 8. 8. 0.] [ 0. 5. 8. 0. 0. 9. 8. 0.] [ 0. 4. 11. 0. 1. 12. 7. 0.] [ 0. 2. 14. 5. 10. 12. 0. 0.] [ 0. 0. 6. 13. 10. 0. 0. 0.]]] (1797, 64) (1797,) '''
-
不妨绘制一下此数据集
from sklearn.datasets import load_digits import matplotlib.pyplot as plt import numpy as np digits = load_digits() plt.gray() # 灰度显示 plt.matshow(digits.images[0]) # 在一个图形窗口中将数组作为矩阵展示 plt.show() n_samples,n_features=digits.data.shape fig = plt.figure(figsize=(6,6)) fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05) #绘制数字:每张图像8*8像素点 for i in range(64): ax = fig.add_subplot(8,8,i+1,xticks=[],yticks=[]) ax.imshow(digits.images[i],cmap=plt.cm.binary,interpolation='nearest') #用目标值标记图像 ax.text(0,7,str(digits.target[i])) plt.show()
1.1.5 鸢尾花数据集(多分类)
-
简单的用于多分类任务的数据集
-
著名的统计学家Fisher在研究判别分析问题时收集了关于鸢尾花的一些数据,这是个非常经典的数据集,datasets中自然也带有这个数据集;这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本(target),以及它们各自对应的4种关于花外形的数据(自变量);这里我们使用
.load_iris(return_X_y)
来导出数据from sklearn import datasets iris_data = datasets.load_iris() #print(iris_data.DESCR) # 描述 print(dir(iris_data),'\n') # 数据集对象所含的成员 print(iris_data.data.shape,'\n') # 样本集形状 print(iris_data.target.shape,'\n') # 标签集形状 print(iris_data.data[:1],'\n') # 第一个样本 print(iris_data.target[:1],'\n') # 第一个标签 print(iris_data.feature_names,'\n') # 特征名 print(iris_data.target_names,'\n') # 标签名 print(iris_data.filename,'\n') # 标签文件路径 ''' ['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names'] (150, 4) (150,) [[5.1 3.5 1.4 0.2]] [0] ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] ['setosa' 'versicolor' 'virginica'] D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\iris.csv '''
-
不妨绘制一下此数据集
from sklearn.datasets import load_iris import numpy as np import matplotlib.pyplot as plt plt.figure(figsize=(12,6)) iris = load_iris() # 绘制第3维数据直方图 plt.subplot(121) x_index = 3 # x轴为 feature_names[3] color=['blue','red','green'] for label,color in zip(range(len(iris.target_names)),color): plt.hist(iris.data[iris.target==label,x_index],label=iris.target_names[label],color=color) plt.xlabel(iris.feature_names[x_index]) plt.legend(loc="upper right") #画散点图,第一维的数据作为x轴和第二维的数据作为y轴 plt.subplot(122) x_index=0 # x轴为 feature_names[0] y_index=1 # y轴为 feature_names[1] colors=['blue','red','green'] for label,color in zip(range(len(iris.target_names)),colors): plt.scatter(iris.data[iris.target==label,x_index], iris.data[iris.target==label,y_index], label=iris.target_names[label], c=color) plt.xlabel(iris.feature_names[x_index]) plt.ylabel(iris.feature_names[y_index]) plt.legend(loc='upper right') plt.show()
1.1.6 红酒数据集(多分类)
-
用于多分类问题
-
这是一个共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,非常适合用来练习各种分类算法;在这里我们使用
.load_wine(return_X_y)
来导出数据from sklearn import datasets wine_data = datasets.load_wine() #print(wine_data.DESCR) # 描述 print(dir(wine_data),'\n') # 数据集对象所含的成员 print(wine_data.data.shape,'\n') # 样本集形状 print(wine_data.target.shape,'\n') # 标签集形状 print(wine_data.data[:1],'\n') # 第一个样本 print(wine_data.target[:1],'\n') # 第一个标签 print(wine_data.feature_names,'\n') # 特征名 print(wine_data.target_names,'\n') # 标签名 ''' ['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names'] (178, 13) (178,) [[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00 2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]] [0] ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline'] ['class_0' 'class_1' 'class_2'] '''
1.1.7 健身数据集(回归)
-
用于回归
-
Linnerud数据集是一个多输出回归数据集。它包括三个运动数据(样本)和三个生理指标变量(标签),收集自20名中年男性在健身俱乐部
from sklearn import datasets linnerud_data = datasets.load_linnerud() #print(linnerud_data.DESCR) # 描述 print(dir(linnerud_data),'\n') # 数据集对象所含的成员 print(linnerud_data.data.shape,'\n') # 样本集形状 print(linnerud_data.target.shape,'\n') # 标签集形状 print(linnerud_data.data[:1],'\n') # 第一个样本 print(linnerud_data.target[:1],'\n') # 第一个标签 print(linnerud_data.feature_names,'\n') # 特征名 print(linnerud_data.target_names,'\n') # 标签名 print(linnerud_data.data_filename,'\n') # 样本文件路径 print(linnerud_data.target_filename,'\n') # 标签文件路径 ''' ['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename', 'target_names'] (20, 3) (20, 3) [[ 5. 162. 60.]] [[191. 36. 50.]] ['Chins', 'Situps', 'Jumps'] ['Weight', 'Waist', 'Pulse'] D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_exercise.csv D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_physiological.csv '''
1.2 远程加载数据集
-
Downloaded Dataset 都是比较大的数据集,主要用于测试解决实际问题,支持在线下载,下载数据集默认保存在当前文件夹的
~/scikit_learn_data
路径下,可以通过两种方式进行配置- 设置环境变量
SCIKIT_LEARN_DATA
指定下载路径 .fetch_*?
方法的第一个参数是data_home
,可以设置下载位置
- 设置环境变量
-
通过
datasets.get_data_home()
获取下载路径。 -
全部加载方法
datasets.fetch_20newsgroups datasets.fetch_20newsgroups_vectorized datasets.fetch_california_housing datasets.fetch_covtype datasets.fetch_kddcup99 datasets.fetch_lfw_pairs datasets.fetch_lfw_people datasets.fetch_mldata datasets.fetch_olivetti_faces datasets.fetch_rcv1 datasets.fetch_species_distributions