Pyspark特征工程--Bucketizer

最新推荐文章于 2023-09-08 23:11:31 发布

Gadaite

最新推荐文章于 2023-09-08 23:11:31 发布

阅读量850

点赞数 2

分类专栏： ML基础文章标签： spark

本文链接：https://blog.csdn.net/weixin_46408961/article/details/123343877

版权

ML基础专栏收录该内容

43 篇文章 8 订阅

订阅专栏

Bucketizer：一列连续特性映射到列桶的特性

class pyspark.ml.feature.Bucketizer(splits=None, inputCol=None, outputCol=None, handleInvalid=‘error’)

setHandleInvalid(value)：设置handleInvalid的值

handleInvalid = Param(parent=‘undefined’, name=‘handleInvalid’, doc=“how to handle invalid entries. Options are ‘skip’ (filter out rows with invalid values), ‘error’ (throw an error), or ‘keep’ (keep invalid values in a special additional bucket).”)

如何处理无效的条目：选择“跳过”(过滤掉行无效值),“错误”(抛出一个错误),或“保持”(无效值保存在一个特殊的附加桶)。”)

01.初始化

from pyspark.sql import SparkSession
from pyspark.ml.feature import Bucketizer
spark = SparkSession.builder.config("spark.Driver.host","192.168.1.3")\
    .config("spark.ui.showConsoleProgress","false")\
    .appName("Bucketizer").master("local[*]").getOrCreate()

02.生成数据和映射规则，并映射到桶

values = [(0.1,), (0.4,), (1.2,), (1.5,), (float("nan"),), (float("nan"),)]
df = spark.createDataFrame(values, ["values"])
bucketizer = Bucketizer(splits=[-float("inf"), 0.5, 1.4, float("inf")],
    inputCol="values", outputCol="buckets")
bucketed = bucketizer.setHandleInvalid("keep").transform(df)
bucketed.show()

输出结果：

+------+-------+
|values|buckets|
+------+-------+
|   0.1|    0.0|
|   0.4|    0.0|
|   1.2|    1.0|
|   1.5|    2.0|
|   NaN|    3.0|
|   NaN|    3.0|
+------+-------+

03.对参数进行重新设置，并输出

bucketizer.setParams(outputCol="res").transform(df).show()

输出结果：

+------+---+
|values|res|
+------+---+
|   0.1|0.0|
|   0.4|0.0|
|   1.2|1.0|
|   1.5|2.0|
|   NaN|3.0|
|   NaN|3.0|
+------+---+

Gadaite

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录