PySpark入门十七：ML之转换器

最新推荐文章于 2024-07-10 18:34:53 发布

Roc Huang

最新推荐文章于 2024-07-10 18:34:53 发布

阅读量398

点赞数

分类专栏： PySpark从入门到放弃数据分析文章标签： python 大数据 spark hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108543176

版权

本文介绍了PySpark中的ML转换器，包括Binarizer、Bucketizer、ChiSqSelector等，这些转换器用于数据预处理，如特征离散化、文本向量化等，为机器学习模型构建打下基础。

摘要由CSDN通过智能技术生成

ML介绍

ML主要包含了三个类：转换器、评估器和管道。那么今天着重学习的是转换器

转换器

转换器：顾名思义，通常通过将一个新列附加到DataFrame来转换数据。

转换器类型

在spark.ml.feature中提供许多转化器，下面会介绍常用的几个：

Binarizer: 根据指定阈值将连续变量转化为对应的二进制；
Bucketizer: 根据阈值范围将连续变量转化为多项值，即将连续变量离散化到指定的范围区间；
ChiSqSelector: 卡方检验选择器（这个不知道大家怎么讲，我自己这样叫的）。顾名思义，就是对分类目标变量，根据指定的数量特征，说明目标的变化。一般需要两步操作，.fit()方法计算卡方检验，然后调用.transform()方法来转换为DataFrame。
CountVectorizer: 对于标记文本非常有用，可以理解为是独热编码的功能，也是两步，先fit()，后transform() ，类似于将文本转化为特征向量；
DCT: 离散余弦变换取实数值向量，并返回相同长度的向量，但余弦函数之和在不同频率下振荡。对于提取数据或者压缩数据中的一些基本频率很有用；
ElementwiseProduct: 返回两个向量的乘积，参数需要传入两个向量；
HashingTF：哈希转换器，输入为标记文本的列表，返回一个带有计数的有预定长度的向量；
IDF：计算文本列表的逆向文件频率。注：

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。