org.apache.spark.SparkException: Task not serializable问题

最新推荐文章于 2020-08-14 10:44:23 发布

Devin01213

最新推荐文章于 2020-08-14 10:44:23 发布

阅读量8k

点赞数

本文链接：https://blog.csdn.net/ym01213/article/details/80156424

版权

当Spark程序中的map、filter等操作引用非序列化成员时，会导致Task无法序列化异常。通过将类实现Serializable并使用transient关键字标注非序列化成员，可以解决这个问题。错误报告指出，SparkConf和JavaSparkContext是引发此错误的原因。

摘要由CSDN通过智能技术生成

由于Spark程序中的map、filter等算子内部引用了类成员函数或变量导致该类所有成员都需要支持序列化，又由于该类某些成员变量不支持序列化，最终引发Task无法序列化问题。相反地，对类中那些不支持序列化问题的成员变量标注后，使得整个类能够正常序列化，最终消除Task未序列化问题。

public class SparkRDDS {
	 SparkConf conf;//定义配置信息对象
	 JavaSparkContext jsc ;//声明spark上下文
	@Before
	public void start(){
		 conf = new SparkConf().setMaster("local[1]").setAppName("sparkRDDs");
		 jsc = new JavaSparkContext(conf);
	}
	@After
	public void end(){
		jsc.close();
	}
	/**
	 * map算子
	 * 对每一个元素执行操作
	 */
	@Test
	public void mapRDDTest(){
		//准备数据
		List<Integer> list = Arrays.asList(1,2,3,4,5);
		//数据并行化
		JavaRDD<Integer> dataRDD = jsc.parallelize(list)