scala语言编程spark单词计数

最新推荐文章于 2024-05-28 09:19:48 发布

AI笔记说

最新推荐文章于 2024-05-28 09:19:48 发布

阅读量1.2k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/wfhjhffg/article/details/78986070

版权

20 篇文章 0 订阅

订阅专栏

package cn.it.wc
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
//todo:通过scala编写spark的单词计数程序
object WordCount {
def main(args: Array[String]): Unit = {
//todo:1、创建SparkConf对象,设置appName和master地址，local[2]表示本地使用2个线程来进行计算
val sparkConf: SparkConf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
//todo:2、创建SparkContext对象，这个对象很重要，它会创建DAGScheduler和TaskScheduler
val sc = new SparkContext(sparkConf)
//设置日志输出级别
sc.setLogLevel("WARN")
//todo:3、读取数据文件
val data: RDD[String] = sc.textFile("d:\data\in\words.txt")
//todo:4、切分每一行，并且压平 hello、you、me
val words: RDD[String] = data.flatMap(_.split(" "))
//todo:5、每个单词记位1 (hello,1)(hello,1)(hello,1)(you,1)(me,1)(me,1)
val wordAndOne: RDD[(String, Int)] = words.map((_,1))
//todo:6、相同单词出现的次数进行累加（hello,10）(you,20)....
val result: RDD[(String, Int)] = wordAndOne.reduceByKey(+)
//todo:按照单词出现的次数降序排序
val sortResult: RDD[(String, Int)] = result.sortBy(.2,false)
//todo:7、收集数据，打印输出
val finalresult: Array[(String, Int)] = sortResult.collect()
//todo:打印结果
finalresult.foreach(x=>println(x))
//关闭
sc.stop()
}
}

关注

专栏目录