Pyspark特征工程--StandardScaler

最新推荐文章于 2024-02-22 15:37:56 发布

Gadaite

最新推荐文章于 2024-02-22 15:37:56 发布

阅读量1k

点赞数

分类专栏： ML基础文章标签： spark 机器学习 big data

本文链接：https://blog.csdn.net/weixin_46408961/article/details/123397589

版权

ML基础专栏收录该内容

43 篇文章 8 订阅

订阅专栏

本文介绍了如何使用 PySpark 的 StandardScaler 对特征进行标准化处理，以实现数据的归一化。通过创建一个 SparkSession 和 DataFrame，展示了如何应用 StandardScaler 对向量数据进行标准化操作，并展示标准化后的结果。StandardScaler 可以移除数据的均值并将其缩放至单位标准差，这对于许多机器学习算法来说是非常重要的预处理步骤。

摘要由CSDN通过智能技术生成

StandardScaler

class pyspark.ml.feature.StandardScaler(withMean=False, withStd=True, inputCol=None, outputCol=None)

通过使用训练集中样本的列汇总统计数据去除均值并缩放到单位方差来标准化特征(归一化)

“单位标准差”是使用校正后的样本标准差计算的，该标准差计算为无偏样本方差的平方根

withMean = Param(parent=‘undefined’, name=‘withMean’, doc=‘以平均值为中心的数据’)*

withStd= Param(parent=‘undefined’, name=‘withStd’, doc=‘缩放到单位标准差’)*

01.创建数据

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("SQLTransformer").master("local[*]").getOrCreate()
from pyspark.ml.linalg import Vectors
df = spark.createDataFrame([(Vectors.dense([0.0]),), (Vectors.dense([2.0]),)], ["a"])
df.show()
df.printSchema()

输出结果：

+-----+
|    a|
+-----+
|[0.0]|
|[2.0]|
+-----+

root
 |-- a: vector (nullable = true)

02.使用StandardScaler标准化

from pyspark.ml.feature import StandardScaler
standardScaler = StandardScaler(inputCol="a", outputCol="scaled")
model = standardScaler.fit(df)
model.transform(df).show()
model.mean

输出结果：

+-----+-------------------+
|    a|             scaled|
+-----+-------------------+
|[0.0]|              [0.0]|
|[2.0]|[1.414213562373095]|
+-----+-------------------+

DenseVector([1.0])

Gadaite

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pyspark特征工程--StandardScaler

StandardScalerclass pyspark.ml.feature.StandardScaler(withMean=False, withStd=True, inputCol=None, outputCol=None)通过使用训练集中样本的列汇总统计数据去除均值并缩放到单位方差来标准化特征(归一化)“单位标准差”是使用校正后的样本标准差计算的，该标准差计算为无偏样本方差的平方根withMean = Param(parent=‘undefined’, name=‘withMean’, doc
复制链接

扫一扫

专栏目录