为什么建议在Spark中使用Scala定义UDF

最新推荐文章于 2023-04-30 12:59:51 发布

置顶

Lestat.Z.

最新推荐文章于 2023-04-30 12:59:51 发布

阅读量5.7k

点赞数 7

分类专栏： Spark Spark学习随笔文章标签： Spark UDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yolohohohoho/article/details/88662805

版权

使用Python UDF在Spark中会导致数据在JVM和Python之间进行序列化和反序列化，造成性能下降。相比之下，Scala UDF直接在JVM中运行，避免了额外的序列化开销，提高处理效率。因此，推荐在Spark中优先考虑使用Scala定义UDF。

摘要由CSDN通过智能技术生成

虽然在Pyspark中，驱动程序是一个python进程，但是它创建的SparkSession对象以及其他DataFrames或者RDDs等都是利用Python封装过的 JVM对象。简单地说，虽然控制程序是Python，但它实际上是python代码告诉集群上的分布式Scala程序该做什么。数据存储在JVM的内存中，并由Scala代码进行转换。

将这些对象从JVM内存中取出并将它们转换为Python可以读取的形式（称为序列化和反序列化）的过程开销是很大的。
一般情况下，将计算结果收集回Python驱动程序通常针对低容量样本，并且不经常进行，因此这种开销相对不被注意。
但是，如果程序在集群中的对整个数据集的Python和JVM对象之间来回转换时，性能将会受到显著影响。

test

Credit: https://medium.com/wbaa/using-scala-udfs-in-pyspark-b70033dd69b9

在上图中，Python程序的指令（1）被转换为Spark执行计划，并通过SparkSession JVM对象（2）传递给集群中不同机器上的两个执行程序（3）。执行

最低0.47元/天解锁文章

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。