在虚拟机里
1、编辑需要词频计算的文件(用空格隔开)
2、在hdfs里新建文件夹WordCount,并把刚刚的words.txt文件上传上去
3、在spark的目录中启动: bin/spark-shell 进入spark shell中输入:
sc.textFile("/WordCount/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
结果如图:
在IDEA里运行
在新建的项目里新建文件夹in和文件word.txt
编写WordCount.scala
package com.atquiqu.bigdata.spark
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
object WordCount {
def main(args: Array[String]): Unit = {
//配置信息类
val config:SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
//创建Spark上下文对象
val sc = new SparkContext(config)
//读取文件,将文件内容一行一行的读取出来
//路径查找位置默认从当前部署环境中查找
//如果从本地查找,file:///usr/local/spark/in
val lines: RDD[String] = sc.textFile("in")
//将一行一行的数据分解一个一个的单词
val words: RDD[String] = lines.flatMap(_.split(" "))
//为了统计方便,将单词数据进行结构的转化
val wordToOne: RDD[(String, Int)] = words.map((_, 1))
//对转换结构后的数据进行分组聚合
val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_ + _)
//将统计结果采集后打印到控制台
val result: Array[(String, Int)] = wordToSum.collect()
result.foreach(println)
}
}
运行后在控制台可以看到
排序:在上面的代码21、22行代码改为下面的代码即可实现排序
val res : RDD[(String,Int)] = wordToSum.sortBy(_._2,false)
//将统计结果采集后打印到控制台
val result: Array[(String, Int)] = res.collect()