spark实现倒排索引

小鱼儿的博客

于 2021-09-08 08:32:34 发布

阅读量1.6k

点赞数

分类专栏：大数据文章标签： spark big data invertindex

本文链接：https://blog.csdn.net/zaishijizhidian/article/details/120148748

版权

该博客介绍了如何利用Spark处理大数据，实现文件索引和词频统计。首先，读取目录下的所有文件并生成列表；接着，遍历文件内容转化为RDD结构；然后，构建词频统计；最后，调整输出格式，生成倒排索引。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.需求：读取文件夹下的文件列表，并实现文件索引和词频统计

2.思路

2.1 读取目录下的文件，并生成列表

2.2 遍历文件，并读取文件类容成成Rdd，结构为（文件名，单词）并将多个Rdd拼接成1个Rdd

2.3 构建词频（（文件名，单词），词频）

2.4 调整输出格式,将（文件名，单词），词频）==》（单词，（文件名，词频）） ==》（单词，（文件名，词频））汇总

3.实现

package org.jike
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.{SparkConf, SparkContext}

object homework {

  def main(args: Array[String]) = {

    val input = "D:\\IdeaProject\\InvertIndex\\src\\main\\scala\\source\\word"
    /**
     * 首先获取路径下的文件列表，unionRDD 按照wordcount来构建
     */
    val