Spark 序列化问题全解

最新推荐文章于 2024-08-18 08:26:01 发布

进击成长

最新推荐文章于 2024-08-18 08:26:01 发布

阅读量1.5w

点赞数 7

分类专栏： spark经验总结文章标签： spark 序列化

本文链接：https://blog.csdn.net/xwc35047/article/details/78411749

版权

本文详细探讨了Spark应用中的序列化问题，包括Java序列化的概念，Spark transformation操作需要序列化的原因，以及如何解决Spark的序列化问题。在解决序列化问题时，可以使用static和transient修饰符，或者自定义序列化方法。对于Spark Streaming，需要注意在executor端实例化对象以避免序列化错误。

摘要由CSDN通过智能技术生成

在Spark应用开发中，很容易出现如下报错：

org.apache.spark.SparkException: Task not serializable
  at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304)
  at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:294)
  at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:122)
  at org.apache.spark.SparkContext.clean(SparkContext.scala:2058)
  ...
Caused by: java.io.NotSerializableException

该报错意思是用户代码的transformation操作中包含不可序列化的对象引用。

本文主要从以下三个方面解释Spark 应用中序列化问题。
1、Java序列化含义？
2、Spark代码为什么需要序列化？
3、如何解决Spark序列化问题？