Scala综合案例：词频统计

'一生所爱

已于 2023-02-06 15:47:21 修改

阅读量1.4k

点赞数 1

文章标签：大数据 scala Powered by 金山文档

于 2023-02-05 22:14:49 首次发布

本文链接：https://blog.csdn.net/weixin_45437533/article/details/128894273

版权

使用scala进行词频统计

获取数据、拆分为一个个单词、对单词进行分组、分组后使用mapValues进行统计

 // TODO 1. 读取文件，获取原始数据
        //  line => Hello Scala
        val source: BufferedSource = Source.fromFile("data/word.txt")
        val lines: Array[String] = source.getLines().toArray
        source.close()

        // TODO 2. 将原始数据进行切分成一个一个的单词
        // "Hello Scala" => "Hello", "Scala"
        val words = lines.flatMap(
            line => {
                line.split(" ")
            }
        )

        // TODO 3. 对分词的结果进行分组操作（相同的单词放置在一起）
        // "Hello", "Hello" => { "Hello"=>List( Hello, Hello ) }
        val wordGroup: Map[String, Array[String]] = words.groupBy(word => word)

        // TODO 4. 对分组后的数据进行数量的统计
        // 如果数据在转换时，无需对key进行操作，只对v进行处理时，可以使用mapValues方法
        // { "Hello"=>List( Hello, Hello ) }
        // =>
        // { "Hello"=>2 }
        val wordCount = wordGroup.mapValues(
            v => {
                v.size
            }
        )

        // TODO 5. 将统计结果打印在控制台
        println(wordCount)

优化写法

将以上其中的核心代码简写为：

 val wordCount =
            lines
                .flatMap(_.split(" "))
                .groupBy(word => word)
                .mapValues(_.size)

第二种：使用reduce方法

获取数据、拆分为一个个单词、将各个单词各自化为键值对、分组、使用mapValues进行统计

val words = lines.flatMap(
      line => {
        line.split(" ")
      }
    )

    val words1 = words.map((_,1))

    val words2 = words1.groupBy(_._1)
    val word3 = words2.mapValues(_.map(_._2).reduce(_ + _))
    println(word3)

其中“_._1”中第一个"_"是指元组类型的参数，

第二个"._1"是元组的一个方法"._1"表示元组中的第一个元素。（"._2"表示元组的第二个元素......）