scikit-learn文档阅读笔记

最新推荐文章于 2022-07-16 23:53:19 发布

知之之

最新推荐文章于 2022-07-16 23:53:19 发布

阅读量189

点赞数

分类专栏：一些工具包机器学习文章标签： sklearn 机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43963453/article/details/120073509

版权

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

一些工具包

10 篇文章 0 订阅

订阅专栏

scikit-learn文档阅读笔记

Getting Started
Fitting and predicting: estimator basics
Transformers and pre-processors
Pipelines: chaining pre-processors and estimators
Model evaluation
Automatic parameter searches

Getting Started

这是一个开源机器学习库，包括监督学习、无监督学习的模型，和数据处理的工具。

Fitting and predicting: estimator basics

estimator是内置的模型和算法，每个estimator都有fit函数用来拟合数据。fit接受设计矩阵和对应的标签列。
fit完成后，可以调用predict函数进行预测。

Transformers and pre-processors

ML工作流程包括两大部分：预处理数据（ transforms or imputes the data）和预测器。
本库中，Transformers and pre-processors也是estimator（继承自BaseEstimator ）。但是Transformers and pre-processors没有predict方法，取而代之的是transform方法（接受X，输出转换后的X）。

StandardScaler().fit(X).transform(X)

ColumnTransformer 可以实现对不同的feature（即列）用不同的转换。

Pipelines: chaining pre-processors and estimators

可以将Transformers和 estimators (predictors)组合成一个统一对象Pipeline。这个东西也有fit和predict方法。使用Pipeline可以防止测试数据泄露（没懂）。
下面是一个Pipeline：

pipe = make_pipeline(
...     StandardScaler(),
...     LogisticRegression()
... )

Model evaluation

提供了一些评估模型的工具（尤其是交叉验证的）

Automatic parameter searches

ML的性能关键可能取决于某几个超参数上，超参数的选择又是一个经验相关、问题相关的任务。sklearn提供了基于交叉验证的各种自动搜索超参数的工具。
这里超参数搜索有个数据泄露的问题（没看懂）：Kaggle post

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。