求学生最喜欢的老师topN两道题

最新推荐文章于 2021-11-22 12:32:05 发布

xiaoqiang17

最新推荐文章于 2021-11-22 12:32:05 发布

阅读量380

点赞数

分类专栏：大数据spark实例文章标签：大数据 spark topN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoqiang17/article/details/77434598

版权

大数据spark实例专栏收录该内容

1 篇文章 0 订阅

订阅专栏

表：

http://bigdata.edu360.cn/laozhang

http://bigdata.edu360.cn/laozhang

一，求学生最喜欢的老师的topN

package

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf,SparkContext}

object FavTeacher {

defmain(args: Array[String]): Unit = {

//setMaster("local[*]") 指定master的本地模式，方便调试，[*]启动多个线程

val conf = new SparkConf().setAppName("FavTeacher").setMaster("local[*]")

valsc = new SparkContext(conf)

//指定以后从哪里读取数据

val lines: RDD[String] = sc.textFile(args(0))

//将url切分，取出老师，将老师名称和一放到一个元组中

val teacherAndOne:RDD[(String, Int)] = lines.map(line => {

val index =line.lastIndexOf("/")

val teacher = line.substring(index + 1)

(teacher, 1)

})

//聚合

val reduced = teacherAndOne.reduceByKey(_+_)

//排序

val sorted = reduced.sortBy(_._2, false)

//取出前两名

val top2: Array[(String, Int)] = sorted.take(2)

println(top2.toBuffer)

sc.stop()

}

}

二、求学生最喜欢的每门功课的topN

package

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf,SparkContext}

object FavTeacher1 {

defmain(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("FavTeacher").setMaster("local[*]")

valsc = new SparkContext(conf)

val lines: RDD[String] = sc.textFile(args(0))

//将url切分，取出老师，将老师名称和一放到一个元组中

val subjectTeacherAndOne: RDD[((String,String), Int)] = lines.map(line => {

val index =line.lastIndexOf("/")

val subUrl = line.substring(0, index)

val subIndex =subUrl.lastIndexOf("/")

val subject = subUrl.substring(subIndex +1)

val teacher = line.substring(index + 1)

((subject, teacher), 1)

})

val reduced:RDD[((String, String), Int)] =subjectTeacherAndOne.reduceByKey(_+_)

val grouped: RDD[(String, Iterable[((String, String), Int)])] =reduced.groupBy(_._1._1)

//二次排序

// val result: RDD[(String, List[((String, String), Int)])] =grouped.mapValues(it => {

// it.toList.sortBy(_._2).reverse.take(2)

// })

//获取迭代器，一个迭代器就一个学科老师信息的集合

val values: RDD[Iterable[((String, String), Int)]] = grouped.values

//map一次就拿到一个学科

val result = values.map(it => {

it.toList.sortBy(_._2).reverse.take(1)(0)

})

val arr = result.collect()

println(arr.toBuffer)

sc.stop()

}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
求学生最喜欢的老师topN两道题

表：http://bigdata.edu360.cn/laozhanghttp://bigdata.edu360.cn/laozhang 一，求学生最喜欢的老师的topNpackage import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf,SparkContex
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。