Spark数据分区

最新推荐文章于 2024-04-16 00:00:00 发布

d4shman

最新推荐文章于 2024-04-16 00:00:00 发布

阅读量2.4k

点赞数 1

分类专栏： hadoop&spark

本文链接：https://blog.csdn.net/wusuopubupt/article/details/53236953

版权

Spark程序通过分区可降低网络通信成本，特别是在涉及多次基于键的操作如连接时。文章以userData和events为例，说明未使用partitionBy()时导致的资源浪费和时间消耗，并展示了使用partitionBy()后如何减少数据shuffle，提高效率。同时强调partitionBy()需与persist()配合使用，避免重复计算和shuffle。

摘要由CSDN通过智能技术生成

Spark程序可以通过分区来减少网络通信开销。分区并非对于所有场景都是有好处的：比如，如果给定RDD只被扫描一遍，那么完全没有必要做分区，只有当数据多次在诸如连接这种基于键的操作时，分区才会有帮助。假设我们有一份不变的大文件userData, 以及每5分钟产生的小数据events, 现要求在每5分钟产出events数据后， userData对events做一次join操作。该过程的代码示例如下：

val sc = new SparkContext()
val userData = sc.sequenceFile[UserID,LinkInfo]("hdfs://...").persist
def processNewLogs(logFileName:String){
    val events = sc.sequenceFile[UserID, LinkInfo](logFileName)
    //RDD of (UserID,(UserInfo,LinkInfo)) pairs
    val joined = usersData.join(events)
    val offTopicVisits = joined.filter {
        // Expand the tuple into its components
        case (userId, (userInfo, linkInfo)) => 
            !userInfo.topics.contains(linkInfo.topic)
    }.count()
    println("Number of visits to non-subscribed opics: " + offTopic