PySpark入门十七:ML之转换器

ML介绍

ML主要包含了三个类:转换器、评估器和管道。 那么今天着重学习的是转换器

转换器

转换器:顾名思义,通常通过将一个新列附加到DataFrame来转换数据。

转换器类型

在spark.ml.feature中提供许多转化器,下面会介绍常用的几个:

  1. Binarizer: 根据指定阈值将连续变量转化为对应的二进制;
  2. Bucketizer: 根据阈值范围将连续变量转化为多项值,即将连续变量离散化到指定的范围区间;
  3. ChiSqSelector: 卡方检验选择器(这个不知道大家怎么讲,我自己这样叫的)。顾名思义,就是对分类目标变量,根据指定的数量特征,说明目标的变化。一般需要两步操作,.fit()方法计算卡方检验,然后调用.transform()方法来转换为DataFrame。
  4. CountVectorizer: 对于标记文本非常有用,可以理解为是独热编码的功能,也是两步,先fit(),后transform() ,类似于将文本转化为特征向量;
  5. DCT: 离散余弦变换取实数值向量,并返回相同长度的向量,但余弦函数之和在不同频率下振荡。对于提取数据或者压缩数据中的一些基本频率很有用;
  6. ElementwiseProduct: 返回两个向量的乘积,参数需要传入两个向量;
  7. HashingTF: 哈希转换器,输入为标记文本的列表,返回一个带有计数的有预定长度的向量;
  8. IDF:计算文本列表的逆向文件频率。注:
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值