【Sklearn学习】Sklearn的数据集介绍

sklearn库学习

sklearn数据集

打包的数据 datasets.load_*

# 已打包的数据加载:sklearn.datasets.load_*
# 导入方法,导入数据集模块,加载指定数据,示例如下
from sklearn import datasets
diabetes_X, diabetes_y = datasets.load_diabetes(return_X_y=True)

# diabetes_X.shape:(442, 10)
# diabetes_y.shape:(442,)

常见的数据集介绍

  • 有关图像的数据集
    • load_sample_image 图像数据集
    • load_sample_images 图像数据集
    • load_digits 手写体数据集
  • 有关医学的数据集
    • load_breast_cancer 乳腺癌数据集
    • load_diabetes 糖尿病数据集
    • load_linnerud 体能训练数据集
  • 其他数据集
    • load_wine 葡萄酒数据集
    • load_iris 鸢尾花数据集
    • load_boston 波士顿房屋数据集

可下载的数据datasets.fetch_*

# 下载示例
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
 
from pprint import pprint
pprint(list(newsgroups_train.target_names))
'''
————————————————
['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',......
————————————————
'''
  • 文本相关

    • fetch_20newsgroups 新闻文本分类数据集
    • fetch_20newsgroups_vectorized 新闻文本向量化数据集
    • fetch_rcv1 路透社英文新闻文本分类数据集
  • 有关人脸识别的数据集

  • fetch_lfw_pairs 人脸数据集

  • fetch_lfw_people 人脸数据集

  • fetch_olivetti_faces 人脸数据集

  • 其他

    • fetch_california_housing 加利福尼亚房屋数据集
    • fetch_kddcup99 入侵检测数据集
    • fetch_species_distribution 物种分布数据集
    • fetch_covtype 森林植被数据集

生成数据datasets.make_*

可生成的数据类型

datasets.make_biclusters 
datasets.make_blobs
datasets.make_checkerboard 
datasets.make_circles
datasets.make_classification 
datasets.make_friedman1
datasets.make_friedman2 
datasets.make_friedman3
datasets.make_gaussian_quantiles
datasets.make_hastie_10_2 
datasets.make_low_rank_matrix
datasets.make_moons
datasets.make_multilabel_classification
datasets.make_regression 
datasets.make_s_curve
datasets.make_sparse_coded_signal
datasets.make_sparse_spd_matrix
datasets.make_sparse_uncorrelated
datasets.make_spd_matrix 
datasets.make_swiss_roll
  • 常用方法
生成方法介绍
make_blobs()多类单标签数据集,为每个类分配一个或多个正太分布的点集
make_classification()多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等
make_gaussian-quantiles()将一个单高斯分布的点集划分为两个数量均等的点集,作为两类
make_hastie-10-2()产生一个相似的二元分类数据集,有10个维度
make_circle 和 make_moom()产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据

其他

  • svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(…)
  • data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(…)

数据集学习

安装Sklearn库后可以在Python对应的安装目录下.\Python3.10\Lib\site-packages\sklearn下查看相关的源码,配合源码学习,事半功倍

  • 可以查看到Sklearn目录下有个datasets文件夹
  • datasets下的__init__.py__all__列表就是所有自带的数据集了,每个数据集获取对应的函数可以看对上方的import内容
  • 每个具体数据集的含义可以看上方的内容
  • 如果需要某个数据集的获取示例,可以查看test目录下的文件,里面有对应的示例
  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
scikit-learn (sklearn) 是 Python 中常用的机器学习库之一,它内置了许多常用的数据集,可以用于机器学习的实践和学习。下面是 sklearn 中一些常用的数据集: 1. Iris(鸢尾花)数据集:这是一个经典的多分类问题数据集,包含了 3 类、每类 50 个实例,每个实例包含 4 个特征。 2. Wine(葡萄酒)数据集:这是另一个经典的多分类问题数据集,包含了 3 类葡萄酒的化学分析数据。 3. Breast Cancer Wisconsin(乳腺癌数据)数据集:这是一个二分类问题数据集,包含了乳腺肿瘤的良性和恶性的 569 个样本的特征。 4. Boston Housing(波士顿房价)数据集:这是一个回归问题数据集,包含了 506 个样本,每个样本包含了 13 个特征,预测目标是波士顿地区房屋的中位数价值。 5. MNIST 手写数字数据集:这是一个经典的图像分类问题数据集,包含了 70,000 张 28x28 像素大小的手写数字图像,每个图像都有一个标签,表示它所代表的数字。 6. CIFAR-10 数据集:这是一个图像分类问题数据集,包含了 60,000 张 32x32 像素大小的彩色图像,共分为 10 个类别。 7. Newsgroups 数据集:这是一个文本分类问题数据集,包含了 20 种不同主题的新闻文章,共有 18,846 个数据点。 以上是 sklearn 中一些常用的数据集,使用这些数据集可以帮助我们更好地理解和学习机器学习算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值