sklearn工具-学习笔记2

最新推荐文章于 2022-05-05 09:33:00 发布

weixin_46087050

最新推荐文章于 2022-05-05 09:33:00 发布

阅读量776

点赞数

本文链接：https://blog.csdn.net/weixin_46087050/article/details/107761941

版权

本文介绍了sklearn库中用于生成各种类型数据集的函数，包括分类、回归和多标签任务，以及数据集划分方法。同时，讲解了如何进行K折交叉验证、超参数优化，如GridSearchCV和RandomizedSearchCV，并提供了超参数搜索技巧。此外，还讨论了模型验证方法和性能评估指标。

摘要由CSDN通过智能技术生成

4、计算机生成数据集：sklearn.datasets.make_(name)
Make_blobs：多类单标签数据集，为每个类分配一个或多个正态分布的点集，提供均值、标准差，常用于聚类算法
Make_classification：多类单标签数据集，为每个类分配一个或多个正太分布的点集，提供为数据集添加噪声的方式，包括维度相性，无效特征和冗余特征等，常用于分类问题
Make_gaussian_quantiles：将一个单高斯分布点集划分为两个数量均等点集，作为2类
Make_hastie_10_2：产生一个相似的二元分类数据集，有10个维度
Make_circles/make_moons：产生二维二元分类数据集（环形/月牙形）
Make_multilable_classification：产生多标签随机样本，这些样本模拟了从很多话题的混合分布中抽取的词袋模型，每个文档的话题数量符合泊松分布，话题本身则从一个固定的随机分布中抽取出来，同样的，单词数量也服从泊松分布，句子则是从多项式抽取。
Make_regression：产生回归任务数据集
Make_sparse_uncorrelated：产生四个特征的线性组合（固定参数）作为期望目标输出
Make_friedman1：采用多项式和正弦变换的组合特征
Make_friedman2：包含了特征的乘积以及互换操作
Make_friedman3：类似于arctan变换
用于流形学习：
Make_s_curve：生成S型曲线数据集
Make_swiss_roll：生成瑞士卷