pyspark代码练习11 —— VectorAssembler

最新推荐文章于 2022-10-15 15:40:30 发布

Lestat.Z.

最新推荐文章于 2022-10-15 15:40:30 发布

阅读量4.4k

点赞数

分类专栏： Spark学习随笔

本文链接：https://blog.csdn.net/yolohohohoho/article/details/100855198

版权

这篇博客介绍了pyspark中的VectorAssembler工具，它用于将多个列（包括数字、布尔和向量类型）合并成单一的向量列，便于后续的机器学习模型训练，如逻辑回归和决策树。VectorAssembler按指定顺序将每行数据的列值组合成一个向量。

摘要由CSDN通过智能技术生成

VectorAssembler是一个变换器，它将给定的列列表组合到一个向量列中。将原始特征和由不同特征变换器生成的特征组合成单个特征向量非常有用，以便训练ML模型，如逻辑回归和决策树。 VectorAssembler接受以下输入列类型：所有数字类型，布尔类型和矢量类型。在每一行中，输入列的值将按指定的顺序连接到一个向量中。


from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler
from pyspark.ml import Pipeline
from pyspark.ml.feature import OneHotEncoder, StringIndexer
df3 = spark.createDataFrame([
    (Vectors.dense(10.2,), "a"