Spark之词频统计
经过了一段时间的Hadoop学习,从今天开始正式走上Spark学习之路,先回顾一下简单的词频统计程序,参考文章三行命令解决spark词频统计
Idea环境中的代码如下
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object WordCount {
def main(args: Array[String]) {
val inputFile = "file:///media/hadoop/Ubuntu/word.txt"
val conf = new SparkConf().setAppName("WordCount").setMaster("local")
val sc = new SparkContext(conf)
val textFile = sc.textFile(inputFile)
val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCount.foreach(println)
}
}
其中 inputFile为本机中存在的一个文本文档,读者可以按照自己的文本所在目录设置路径