GraphFrames路径边多值字段过滤

最新推荐文章于 2024-07-17 20:51:06 发布

zcc_0015

最新推荐文章于 2024-07-17 20:51:06 发布

阅读量1k

收藏 23

点赞数 23

文章标签： spark GraphFrames 多值过滤

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcc_0015/article/details/136730824

版权

背景：

GraphFrames是spark封装的关于图算子的操作，并且可以兼容pyspark的调用方式.里面包括了创建图，遍历图，过滤图的一些操作。在创建图的过程需要定义图上的节点和图的边，边的定义可以一般为三元组，即：（A, B, EdgeType）,当按某种条件继续边的过滤时，会有两种情况：一是对RDD里的某一列内部进行过滤;二是过滤前后两列的情况，比如在边的路径上，按前后两条边的某种关系继续过滤，如按日期继续排序。该问题定义为DataFrame RDD对多值字段的过滤解析问题，即：RDD中某个字段含有多个值，多值的表达一般为array，struct等。

2、方法

（1）struct

对spark的dataframe多值字段的过滤，首先通过dataFrame.printSchema()打印看到df中每个字段的类型。

对于这种以结构体struct存储，过滤的方法采用

dataframe.select(“first.data”).show()，通过对象.属性的方式实现对某一个属性的引用;进而通过filter方法进行过滤

dataframe.filter(“sec.date > first.date and third.date > sec.date”).show()

（2）array

df = spark.createDataFrame([('a',[1,2,3]), ('b', [4,5,6])], ['key', 'values'])

df.printSchema()

root

|-- key: string (nullable = true)

|-- values: array (nullable = true)

| |-- element: long (containsNull = true)

df.select(expr('key'), expr('values[1]')).show()

df.selectExpr('key', 'values[1]').show()

df.withColumn('c1', df['values'].getItem(1)).drop('values').show()

（3）vector

将array转成vector的方法：

from pyspark.ml.linalg import Vectors, VectorUDT

from pyspark.sql.functions import udf

list_to_vector_udf = udf(lambda l: Vectors.dense(l), VectorUDT())

df = df.select('key', list_to_vector_udf(df['values']).alias('values'))

df.show()

df.printSchema()

root

|-- key: string (nullable = true)

|-- values: vector (nullable = true)

from pyspark.sql.functions import udf

from pyspark.sql.types import FloatType

firstelement=udf(lambda v:float(v[0]),FloatType())

df.select(firstelement('values').alias('val1')).show()

3. 总结

对dtaframe的多值字段进行提取和过滤，spark都提供了对应的方法，根据自己的需要进行不同的过滤

zcc_0015

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值