1.需求:读取文件夹下的文件列表,并实现文件索引和词频统计
2.思路
2.1 读取目录下的文件,并生成列表
2.2 遍历文件,并读取文件类容成成Rdd,结构为(文件名,单词)并将多个Rdd拼接成1个Rdd
2.3 构建词频((文件名,单词),词频)
2.4 调整输出格式,将(文件名,单词),词频)==》 (单词,(文件名,词频)) ==》 (单词,(文件名,词频))汇总
3.实现
package org.jike
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}
object homework {
def main(args: Array[String]) = {
val input = "D:\\IdeaProject\\InvertIndex\\src\\main\\scala\\source\\word"
/**
* 首先获取路径下的文件列表,unionRDD 按照wordcount来构建
*/
val