Spark学习之数据分区

最新推荐文章于 2024-04-18 22:01:43 发布

kerl-fashion

最新推荐文章于 2024-04-18 22:01:43 发布

阅读量260

点赞数

本文链接：https://blog.csdn.net/yangyuguang/article/details/86631475

版权

在分布式程序中，通信的代价是很大的。因此控制数据分布以获得最少的网络传输可以极大地提升程序整体性能。分布式程序选择正确的分区方式和单节点程序选择合适的数据结构是一样的。
Spark可以通过控制RDD分区方式来减少通信的开销。
所有的pairRDD都是可以进行分区的。
Spark没有显示控制特定的键存放在哪个节点上，因为Spark是一个高容错的集群。当一个节点失败后，整个集群不会因此瘫痪。集群依旧是可以工作的。
Join操作，默认情况下，连接操作会将两个数据集中所有键的哈希值都求出来，将哈希值相同的记录通过网络传输传到同一台机器上，然后在这台机器上对所有的键相同的记录进行连接操作。
比如说两个RDD：
RDD1: userID(用户ID)，userInfo(用户订阅主题信息)和
RDD2: userID(过去五分钟内访问的用户ID) ,linkedInfo(该用户在过去五分钟查看的主题信息)
现在我们要统计用户访问的未订阅主题的数量。
这里需要明确的是RDD1包含所有的用户信息，RDD2包含是过去五分钟内的数据，相对来说，RDD1的数据是比RDD2的数据庞大。
在RDD1.join(RDD2)时，会将RDD1和RDD2的键值对进行哈希求值，然后将同样的哈希值发送到同一台机器上。每次连接操作，都会对RDD1哈希求值，这样一来，会浪费很多的时间，所以，提高效率的方法，就是将RDD1一开始就进行哈希值分区。这样只对RDD2进行哈希值求值并分配，这样一来就会省去很多时间。
Spark查看分区方式：
scala中 rdd.parititioner 获取rdd的分区方式。
初始的时候，没有分区，会返回一个值为None的Option对象。
一般分区的时候，都会使用persist将数据进行缓存。

从分区中可以获益的操作：
cogroup() groupwith() join() leftOuterJoin() rightOuterJoin() groupByKey() reduceBykey()
combinerByKey()以及lookup()

kerl-fashion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习之数据分区

在分布式程序中，通信的代价是很大的。因此控制数据分布以获得最少的网络传输可以极大地提升程序整体性能。分布式程序选择正确的分区方式和单节点程序选择合适的数据结构是一样的。Spark可以通过控制RDD分区方式来减少通信的开销。所有的pairRDD都是可以进行分区的。Spark没有显示控制特定的键存放在哪个节点上，因为Spark是一个高容错的集群。当一个节点失败后，整个集群不会因此瘫痪。集群依旧是...
复制链接

扫一扫