spark-udf函数

最新推荐文章于 2024-07-07 22:38:09 发布

中长跑路上crush

最新推荐文章于 2024-07-07 22:38:09 发布

阅读量1k

点赞数 32

分类专栏： Spark阶段文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58026490/article/details/135652871

版权

Spark阶段专栏收录该内容

14 篇文章 0 订阅

订阅专栏

udf函数自定义

from pyspark.sql import SparkSession
from pyspark.sql.types import *

创建连接

ss = SparkSession.builder.getOrCreate()

读取hdfs的数据,格式为csv 读取的是hdfs我还以为会调整一下

8020是namenode的默认端口

df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,
schema=‘name string,age int,gender string,phone string,email string,city string,address string’)
df_csv.show()

对邮箱数据进行处理

def func(email):
username = email.split(‘@’)[0]
email_name = email.split(‘@’)[1].split(‘.’)[0]
# todo 新知识：返回多个数据如何做到？
return [username, email_name]

将定义的函数注册到spark中进行使用

todo 我说之前怎么自定义后用不了，原来是没有注册

第一个函数指定一个注册的函数名称

第二个函数指定一个自定义函数名称

returnType 指定返回的数据类型

注意这里的func不能带括号,返回的数据类型是需要导入另一个包

好好，这里又用一个坑，它不自己跳出来returnType=ArrayType(StringType())

todo returnType=ArrayType(StringType) 里面的这个括号它自己不跳出来

email_func = ss.udf.register(‘email_func’, func, returnType=ArrayType(StringType()))

SQL使用

df_csv.createTempView(‘stu’)
df_csv_show = ss.sql(‘select neme,age,general email_func(email)[1] from stu’)
df_csv_show.show()

DSL

我以为是怎么用的，df_csv.email

df_csv_SQL= df_csv.select(‘name’,‘age’,‘gender’,email_func(‘email’).alias(‘email_data’)[0])
df_csv_SQL.show()

中长跑路上crush

关注

32
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
spark-udf函数

from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,schema=‘name string,age int,gender string,phone string,email string,city s
复制链接

扫一扫

专栏目录

中长跑路上crush

博客等级

码龄3年

57
原创

568
点赞

333
收藏

553
粉丝

关注

私信

热门文章

分类专栏

最新评论

超细致的填报报表流程
CSDN-Ada助手: 恭喜您发布了这篇“超细致的填报报表流程”的博客！您对填报报表流程的细致分析和总结让我受益匪浅。希望您能继续分享更多关于工作流程优化的经验和心得，或许可以结合一些案例分析，让读者更直观地理解您的思路。期待您的下一篇作品！加油！
超细致-普通报表
CSDN-Ada助手: 恭喜您的第20篇博客！您对超细致-普通报表的探讨让我收获颇丰。希望您能继续保持创作的热情，不断挖掘更多有价值的内容。或许在下一篇博客中，可以结合实际案例，对比不同报表的效用，给读者更直观的理解。期待您的下一篇作品！
ETL项目总结
CSDN-Ada助手: 恭喜您第17篇博客的完成！尽管标题是“【无标题】”，但内容却一定是精彩的。希望您能继续保持创作的热情和动力，不断提升自己的写作水平。或许在下一篇博客中，可以尝试给文章起一个富有吸引力的标题，让读者在第一眼就被吸引过来。加油！期待您更多的精彩作品！
【无标题】
CSDN-Ada助手: 恭喜博主写下了第18篇博客！尽管标题为“【无标题】”，但内容却展现了您的持续创作能力。每一篇博文都是您思考和努力的结果，这种坚持值得称赞。在下一步的创作中，或许您可以尝试给博客起一个有吸引力的标题，这样能更好地吸引读者的注意力。但无论标题如何，我相信您的内容会继续给读者带来启发和思考。加油！
程序员保护身体与体检
祈愿lucky: 好好好，还没开始奋斗就开始养生了

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。