sklearn库都有哪些数据集

本文介绍了Scikit-learn库提供的各种机器学习数据集,包括波士顿房价、鸢尾花、糖尿病等经典数据集,以及新闻文本、人脸图片等在线数据集,这些数据集广泛用于教学和模型性能测试。同时提及了弃用的伦理问题数据集和获取大规模数据的方法。
摘要由CSDN通过智能技术生成

Scikit-learn(通常简称为sklearn)是Python的一个开源机器学习库,它包含了许多用于机器学习和数据挖掘的工具。其中,它提供了一些内置的数据集,用于测试算法和训练模型。以下是截至我的知识截止日期为止,sklearn库提供的一些常见数据集:

  1. load_boston(): 波士顿房价数据集,已于0.24版本起弃用,因为该数据集存在伦理问题,建议使用fetch_openml来获取替代数据集。
  2. load_iris(): 鸢尾花数据集,经典的分类数据集,包含3种不同类型的鸢尾花的4个属性。
  3. load_diabetes(): 糖尿病数据集,用于回归分析。
  4. load_digits(): 手写数字数据集,用于分类。
  5. load_linnerud(): 练习生理数据集,多元回归数据集,包含3个生理特征和3个运动特征。
  6. load_wine(): 红酒识别数据集,用于多类别分类。
  7. load_breast_cancer(): 乳腺癌数据集,用于二分类问题。

除了这些小规模的数据集,sklearn还提供了一些函数来获取在线或大规模的数据集:

  • fetch_20newsgroups(): 获取20个新闻组文本数据集,用于文本分类和聚类分析。
  • fetch_olivetti_faces(): 获取奥利维提人脸图片数据集。
  • fetch_lfw_people()fetch_lfw_pairs(): 获取Labeled Faces in the Wild (LFW)人脸数据集的人脸图片。
  • fetch_covtype(): 获取森林植被类型数据集(用于预测森林覆盖类型)。
  • fetch_california_housing(): 获取加利福尼亚住房价格数据集,用于回归分析。

此外,fetch_openml函数可以用来下载OpenML.org上的成百上千个数据集。

这些数据集通常用于教学、演示和测试机器学习模型的性能。在实际应用中,您可能需要处理更复杂和专业化的数据集。

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

菌菌的快乐生活

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值