- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 Spark中foreachRDD的正确使用
常出现的使用误区:误区一:在driver上创建连接对象(比如网络连接或数据库连接) 如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象(比如Connection对象)通常来说是不支持序列化的,此时通常会报序列化的异常(serialization errors)。因此连接对象必须在work...
2019-07-23 21:37:51
746
原创 Spark RDD介绍
一、什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。二、RDD的属性 RDD在spark源码中的介...
2019-04-29 23:29:55
245
二叉树基本算法
2011-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人