这是命令行的简单操作案例,借用spark里面的API:flatMap、reduceByKey来实现,步骤如下:
1)启动spark shell:
./spark-shell --master local[2]
注:spark shell 是spark自带的一个快速开发工具,在spark目录下bin目录里面
2)读入需要处理的单词文件
val file = sc.textFile("file:///home/hadoop/data/hello.txt")
3)将文件中的每一行单词按照分隔符(这里是空格)分隔
val a = file.flatMap(line => line.split(" "))<