sklearn库都有哪些数据集

最新推荐文章于 2024-05-22 17:12:34 发布

菌菌的快乐生活

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量1k

点赞数 5

文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/weixin_46084533/article/details/137454692

版权

本文介绍了Scikit-learn库提供的各种机器学习数据集，包括波士顿房价、鸢尾花、糖尿病等经典数据集，以及新闻文本、人脸图片等在线数据集，这些数据集广泛用于教学和模型性能测试。同时提及了弃用的伦理问题数据集和获取大规模数据的方法。

摘要由CSDN通过智能技术生成

Scikit-learn（通常简称为sklearn）是Python的一个开源机器学习库，它包含了许多用于机器学习和数据挖掘的工具。其中，它提供了一些内置的数据集，用于测试算法和训练模型。以下是截至我的知识截止日期为止，sklearn库提供的一些常见数据集：

load_boston(): 波士顿房价数据集，已于0.24版本起弃用，因为该数据集存在伦理问题，建议使用fetch_openml来获取替代数据集。
load_iris(): 鸢尾花数据集，经典的分类数据集，包含3种不同类型的鸢尾花的4个属性。
load_diabetes(): 糖尿病数据集，用于回归分析。
load_digits(): 手写数字数据集，用于分类。
load_linnerud(): 练习生理数据集，多元回归数据集，包含3个生理特征和3个运动特征。
load_wine(): 红酒识别数据集，用于多类别分类。
load_breast_cancer(): 乳腺癌数据集，用于二分类问题。

除了这些小规模的数据集，sklearn还提供了一些函数来获取在线或大规模的数据集：

fetch_20newsgroups(): 获取20个新闻组文本数据集，用于文本分类和聚类分析。
fetch_olivetti_faces(): 获取奥利维提人脸图片数据集。
fetch_lfw_people() 和 fetch_lfw_pairs(): 获取Labeled Faces in the Wild (LFW)人脸数据集的人脸图片。
fetch_covtype(): 获取森林植被类型数据集（用于预测森林覆盖类型）。
fetch_california_housing(): 获取加利福尼亚住房价格数据集，用于回归分析。

此外，fetch_openml函数可以用来下载OpenML.org上的成百上千个数据集。

这些数据集通常用于教学、演示和测试机器学习模型的性能。在实际应用中，您可能需要处理更复杂和专业化的数据集。

关注