Spark算子综合案例 - Scala篇

念婷

已于 2024-04-22 10:24:32 修改

阅读量1.2k

点赞数 6

分类专栏：云计算应用开发文章标签： spark scala 大数据

于 2024-04-22 09:52:03 首次发布

本文链接：https://blog.csdn.net/weixin_51439828/article/details/138061942

版权

云计算应用开发专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章介绍了如何使用ApacheSpark的CoreAPI，特别是RDD操作，来处理好友推荐的数据，包括创建RDD、处理直接好友和间接好友关系，以及进行词频统计。

摘要由CSDN通过智能技术生成

friend recommendation - 好友推荐

任务描述

本关任务：使用 Spark Core 知识完成 " 好友推荐 " 的程序。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，完成统计间接好友的数量的程序。

统计间接好友的参照数据如下：

(world_tom,2)
(tom_mr,1)
(mr_hadoop,1)
...
...

参考数据说明：以 (world_tom,2) 为例，用户 world 与用户 tom 在间接好友关系中出现的次数为 2。

特别说明：(world_tom,2) 与 (tom_world,2) 属于同一数据，请使用 hashcode 来排列用户 world 与用户 tom 的前后顺序。

测试说明

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。

预期结果：

(world_tom,2)
(tom_mr,1)
(mr_hadoop,1)
(cat_mr,1)
(world_cat,1)
(cat_hadoop,2)
(hive_tom,3)
(world_mr,2)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object Friend {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local").setAppName("friend")

val sc = new SparkContext(conf)

val path = "file:///root/files/friend.txt"

/********* Begin *********/

//1.创建RDD

val rdd: RDD[String] = sc.textFile(path)

//2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合

val rdd1: RDD[(String, Int)] = rdd.flatMap(line => {

var a = List[(String, Int)]()

val split = line.split(" ")

val me = split(0)

for (i <- 1 until split.length) {

val s = if (me.hashCode > split(i).hashCode) me + "_" + split(i) else split(i) + "_" + me

a ::= (s, 0)

for (j <- i+1 until split.length) {

val ss = if (split(j).hashCode > split(i).hashCode) split(j) + "_" + split(i) else split(i) + "_" + split(j)

a ::= (ss, 1)

}

})

//3分组

val rdd2: RDD[(String, Iterable[Int])] = rdd1.groupByKey()

//4判断每一行里如果为直接好友将其次数设为0，如果不是+1

val rdd3: RDD[(String, Int)] = rdd2.map(x => {

var bool = false

var count = 0

val flags = x._2

val name = x._1

for (flag <- flags) {

if (flag == 0) bool = true

count += 1

}

if (bool == false) (name, count)

else ("直接好友", 0)

})

//5过滤掉次数为0的剩下的就是间接好友及其次数

val tu: RDD[(String, Int)] = rdd3.filter((x) => if (x._2 !=0) true else false)

//6输出

tu.foreach(println)

/********* End *********/

sc.stop()

}

WordCount - 词频统计

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量，降序排序。

文本文件内容如下：

hello java
hello python java
hello python python
hello flink
scala scala scala scala scala

说明：单词与单词之间以空格进行分割

测试说明

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。测试输入：可查看右侧文件夹中wordcount.txt文件，具体内容为上述文本内容。预期输出： (scala,5) (hello,4) (python,3) (java,2) (flink,1)

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local").setAppName("WordCount")

val sc = new SparkContext(conf)

val path = "file:///root/files/wordcount.txt"

/********* Begin *********/

//读取文件创建RDD

val file = sc.textFile(path)

//切分并压平

val words: RDD[String] = file.flatMap(_.split(" "))

//组装

val wordsAndone: RDD[(String, Int)] = words.map((_,1))

//分组聚合

val result: RDD[(String, Int)] = wordsAndone.reduceByKey(_+_)

//排序

val result1: RDD[(String, Int)] = result.sortBy(_._2,false)

//输出

result1.foreach(println)

/********* End *********/

sc.stop()

}

念婷

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
Spark算子综合案例 - Scala篇

补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过。//2.切分压平、直接好友拼接加入集合、遍历、间接好友拼接、返回集合。//4判断每一行里如果为直接好友将其次数设为0，如果不是+1。//5过滤掉次数为0的剩下的就是间接好友及其次数。区域内进行代码补充，完成统计间接好友的数量的程序。else ("直接好友", 0)请仔细阅读右侧代码，根据方法内的提示，在。知识完成 " 好友推荐 " 的程序。数据说明（第二行为例）：这个人叫。在间接好友关系中出现的次数为。
复制链接

扫一扫