Scikit-learn中的API总结

最新推荐文章于 2024-10-29 07:50:29 发布

tigerlib

最新推荐文章于 2024-10-29 07:50:29 发布

阅读量903

点赞数 2

分类专栏： machine learning 文章标签： Scikit-learn API

本文链接：https://blog.csdn.net/weixin_44695969/article/details/97434485

版权

18 篇文章

订阅专栏

本文详细介绍了如何使用sklearn库加载流行的数据集，包括小规模数据集的load_*()函数和大规模数据集的fetch_*()函数。同时，讲解了如何通过train_test_split()函数进行数据集的划分，为机器学习模型的训练与测试提供准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

API	说明
*sklearn.datasets.load_()**	获取`小规模数据集`，数据包含在datasets里示例：sklearn.datasets.load_iris()
*sklearn.datasets.fetch_(data_home=None)**	获取`大规模数据集`，需要从网络上下载；示例：sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’) （1）参数data_home表示数据集下载的目录,默认是 ~/scikit_learn_data/ （2）subset：‘train’或者’test’，‘all’，可选，选择要加载的数据集。训练集的“训练”，测试集的“测试”，两者的“全部”

流行数据集的属性	说明
iris.data	特征值数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组
iris.feature_names	特征标签名, 新闻数据，手写数字、回归数据集没有
iris.target	目标值数组，是 n_samples 的一维 numpy.ndarray 数组
iris.target_names	目标值标签名
iris.DESCR	数据描述

操作	API	参数
数据集划分	train_test_split(iris.data, iris.target, test_size =0.2, random_state=6)	参数：数据集的特征值；数据集的特征值；测试集占比；随机数种子；返回值：x_train, x_test, y_train, y_test