pyspark UDF+ dataframe +生成式列表+ if&else

最新推荐文章于 2024-05-10 17:00:14 发布

Catherine_In_Data

最新推荐文章于 2024-05-10 17:00:14 发布

阅读量943

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/zhouwenyuan1015/article/details/106188768

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

背景
如果pyspark自带的方法不能满足数据处理的需要时，可自定义UDF方法。
UDF建立
from pyspark.sql.functions import udf

# 定义udf方法
def mySum(value):
    x = value+1
    return x
    
# 定义返回数据类型
mySum = udf(mySum, FloatType())

利用自定义UDF处理DataFrame

## df中每列值+1
df_new = df.select([mySum(c) for c in df.columns])
注意： 不能与Nontype相加，需要提前补充缺失值

列表生成+ if +else:

 # 获取特征数值类型
def colType(df):
    df_dtypes = df.dtypes
    col_dtypes = {}  # 特征列名与特征类型字典
    for i in range(len(df_dtypes)):
        col_dtypes[df_dtypes[i][0]] = df_dtypes[i][1]
    return col_dtypes
col_dtypes = colType(df)
 
 ## df中如果数值类型是float, double 则值+1， 否则不变。
df_new = df.select([ mySum(c).alias(c) if (col_dtypes[c] == 'float') | (col_dtypes[c] == 'double') else c  for c in df.columns ])

Catherine_In_Data

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspark UDF+ dataframe +生成式列表+ if&else

背景如果pyspark自带的方法不能满足数据处理的需要时，可自定义UDF方法。UDF建立from pyspark.sql.functions import udf# 定义udf方法def mySum(value): x = value+1 return x # 定义返回数据类型mySum = udf(mySum, FloatType())利用自定义UDF处理DataFrame## df中每列值+1df_new = df.select([mySum..
复制链接

扫一扫