Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线

最新推荐文章于 2021-07-15 11:16:33 发布

突破黎明前的黑暗

最新推荐文章于 2021-07-15 11:16:33 发布

阅读量615

点赞数

分类专栏： python机器学习

python机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

选择最具区分度的特征、创建新特征等都属于预处理的范畴。

scikit-learn的预处理工具叫作转换器，它接受原始数据集，返回转换后的数据集。

除了处理数值型特征，转换器还能用来抽取特征。

标准预处理

from sklearn.preprocessing import MinMaxScaler

这个类可以把每个特征的值域规范化为0到1之间。最小值用0代替，最大值用1代替，其余值介于两者之间。

我们在预处理器MinMaxScaler上调用转换函数。有些转换器要求像训练分类器那样先进行训练，但是MinMaxScaler不需要，

直接调用fit_transform()函数，即可完成训练和转换。

还有很多其他类似的规范方法，对于其他类型的应用和特征类型会很有用。

1、为使每条数据各特征值得和为1，使用sklearn.preprocessing.Normalizer。

2、为使各特征的均值为0，方差为1，使用sklearn.preprocessing.StandardScaler，常用作规范化的基准。

3、为将数值特征为二值化，使用sklearn.preprocessing.Binarizer，大于阈值为1，反之为零。

流水线

from sklearn.pipline import Pipline

流水线的输入为一连串的数据挖掘步骤，其中最后一步必须是估计器，前几步是转换器。输入的数据集经过转换器的处理后，

输出的结果作为下一步的输入。最后，用位于流水线最后一步的估计器对数据进行分类。

流水线分为两大步：

a)用MinMaxScaler将特征取值范围规范到0~1。

b)指定KNeighborsClassfier分类器。

每一步都用元组(‘名称’,步骤)来表示。现在来创建流水线。

scaling_pipeline=Pipeline([('scale',MinMaxScaler()),('predict',KNeighborsClassfier())])

scores=cross_val_score(scaling_pipeline,X_broken,y,scoring='accuracy')

突破黎明前的黑暗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python数据挖掘入门与实践(二)——scikit-learn数据的预处理转换器以及流水线

选择最具区分度的特征、创建新特征等都属于预处理的范畴。scikit-learn的预处理工具叫作转换器，它接受原始数据集，返回转换后的数据集。除了处理数值型特征，转换器还能用来抽取特征。标准预处理from sklearn.preprocessing import MinMaxScaler这个类可以把每个特征的值域规范化为0到1之间。最小值用0代替，最大值用1代替，其余值介于两者之
复制链接

扫一扫

专栏目录

突破黎明前的黑暗 CSDN认证博客专家 CSDN认证企业博客

码龄8年

7: 原创

62万+: 周排名

33万+: 总排名

1万+: 访问

: 等级

208: 积分

1: 粉丝

1: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

最新评论

TensorFlow学习一
weixin_46641034: 为什么都打上代码以后说step未定义
Python数据挖掘入门与实践(四)——亲和性分析
老Q量化投研: 1. 在frequency的计算中，我感觉有些问题：比如(1，2，3)这个项集，他在k=3的时候可以通过frozenset({1,2})[表情]frozenset({3})、frozenset({1,3})[表情]frozenset({2})、frozenset({2,3})[表情]frozenset({1})三种方式生成，也就是说按照文中的算法，frozenset({1,2,3})这个项集针对一个同时看过1、2、3三部电影的用户会计数三次，这样会导致大量不满足支持度的项集变成了频繁项集。针对这个问题，在第k个循环里，我认为frequency应该除以k。 2. 这个问题实际上是由于set的属性造成的，{1, 2}-->3、{1, 3}-->2、{2, 3}-->1这三种规则带来的计数在使用set的时候全被归结于{1,2,3}上了。使用tuple或者其他将同一项集、不同规则的情况拆分开即可避免这一问题。 3. 实际上文中的处理方式挺好，因为同一项集的不同规则的计数是一样的，所以在文章的基础上，k级的项集的frequency除以k比较好。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。