spark
xiaoou33
这个作者很懒,什么都没留下…
展开
-
Spark RDD介绍
一、什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。二、RDD的属性 RDD在spark源码中的介...原创 2019-04-29 23:29:55 · 280 阅读 · 0 评论 -
Spark中foreachRDD的正确使用
常出现的使用误区:误区一:在driver上创建连接对象(比如网络连接或数据库连接) 如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象(比如Connection对象)通常来说是不支持序列化的,此时通常会报序列化的异常(serialization errors)。因此连接对象必须在work...原创 2019-07-23 21:37:51 · 761 阅读 · 0 评论