Spark算子综合案例 - Scala篇

文章介绍了如何使用ApacheSpark的CoreAPI,特别是RDD操作,来处理好友推荐的数据,包括创建RDD、处理直接好友和间接好友关系,以及进行词频统计。
摘要由CSDN通过智能技术生成

friend recommendation - 好友推荐

任务描述

本关任务:使用 Spark Core 知识完成 " 好友推荐 " 的程序。

相关知识
直接好友与间接好友

参照数据如下:

  1. hello hadoop cat
  2. world hadoop hello hive
  3. cat tom hive
  4. ...
  5. ...

数据说明(第二行为例): 这个人叫 world ,他有三个好友,分别是:hadoophellohivehadoophellohive 之间就是间接好友。wordhadoophellohive 属于直接好友。

编程要求

请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,完成统计间接好友的数量的程序。

统计间接好友的参照数据如下:

  1. (world_tom,2)
  2. (tom_mr,1)
  3. (mr_hadoop,1)
  4. ...
  5. ...

参考数据说明:以 (world_tom,2) 为例,用户 world 与用户 tom 在间接好友关系中出现的次数为 2

特别说明:(world_tom,2)(tom_world,2) 属于同一数据,请使用 hashcode 来排列用户 world 与 用户 tom 的前后顺序。

测试说明

补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。

预期结果:

  1. (world_tom,2)
  2. (tom_mr,1)
  3. (mr_hadoop,1)
  4. (cat_mr,1)
  5. (world_cat,1)
  6. (cat_hadoop,2)
  7. (hive_tom,3)
  8. (world_mr,2)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Friend {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("friend")

    val sc = new SparkContext(conf)

    val path = "file:///root/files/friend.txt"

  /********* Begin *********/

    //1.创建RDD

    val rdd: RDD[String] = sc.textFile(path)

    //2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合 

    val rdd1: RDD[(String, Int)] = rdd.flatMap(line => {  

      var a = List[(String, Int)]()  

      val split = line.split(" ")  

      val me = split(0)  

      for (i <- 1 until split.length) {  

        val s = if (me.hashCode > split(i).hashCode) me + "_" + split(i) else split(i) + "_" + me  

        a ::= (s, 0)  

        for (j <- i+1 until split.length) {  

          val ss = if (split(j).hashCode > split(i).hashCode) split(j) + "_" + split(i) else split(i) + "_" + split(j)  

          a ::= (ss, 1)

        }  

      }  

      a  

    })  

    //3分组

    val rdd2: RDD[(String, Iterable[Int])] = rdd1.groupByKey()

    //4判断每一行里如果为直接好友将其次数设为0,如果不是+1

    val rdd3: RDD[(String, Int)] = rdd2.map(x => {

      var bool = false  

      var count = 0  

      val flags = x._2  

      val name = x._1  

      for (flag <- flags) {  

        if (flag == 0) bool = true  

        count += 1  

      }  

      if (bool == false) (name, count)  

      else ("直接好友", 0)  

    })  

    //5过滤掉次数为0的剩下的就是间接好友及其次数

    val tu: RDD[(String, Int)] = rdd3.filter((x) => if (x._2 !=0) true else false)

    //6输出

    tu.foreach(println)

  /********* End *********/

    sc.stop()

  }

}

WordCount - 词频统计

编程要求

请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,具体任务如下:

  • 对文本文件内的每个单词都统计出其出现的次数。
  • 按照每个单词出现次数的数量,降序排序。

文本文件内容如下:

  1. hello java
  2. hello python java
  3. hello python python
  4. hello flink
  5. scala scala scala scala scala

说明:单词与单词之间以空格进行分割

测试说明

补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。 测试输入:可查看右侧文件夹中wordcount.txt文件,具体内容为上述文本内容。 预期输出: (scala,5) (hello,4) (python,3) (java,2) (flink,1)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("WordCount")

    val sc = new SparkContext(conf)

    val path = "file:///root/files/wordcount.txt"

    /********* Begin *********/

    //读取文件创建RDD

    val file = sc.textFile(path)

    //切分并压平

    val words: RDD[String] = file.flatMap(_.split(" "))

    //组装

    val wordsAndone: RDD[(String, Int)] = words.map((_,1))

    //分组聚合

    val result: RDD[(String, Int)] = wordsAndone.reduceByKey(_+_)

    //排序

    val result1: RDD[(String, Int)] = result.sortBy(_._2,false)

    //输出

    result1.foreach(println)

  /********* End *********/

    sc.stop()

  }

}

  • 6
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值