Spark之词频统计

最新推荐文章于 2024-06-11 11:56:25 发布

路人张的鱼生

最新推荐文章于 2024-06-11 11:56:25 发布

阅读量2.6k

点赞数

分类专栏： Spark 文章标签： Spark

本文链接：https://blog.csdn.net/zhangdy12307/article/details/95474359

版权

Spark 专栏收录该内容

19 篇文章 1 订阅

订阅专栏

Spark之词频统计

经过了一段时间的Hadoop学习，从今天开始正式走上Spark学习之路，先回顾一下简单的词频统计程序，参考文章三行命令解决spark词频统计
Idea环境中的代码如下

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    val inputFile =  "file:///media/hadoop/Ubuntu/word.txt"
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)
    val textFile = sc.textFile(inputFile)
    val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
    wordCount.foreach(println)
  }
}

其中 inputFile为本机中存在的一个文本文档，读者可以按照自己的文本所在目录设置路径

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路人张的鱼生

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Spark之词频统计

Spark之词频统计经过了一段时间的Hadoop学习，从今天开始正式走上Spark学习之路，先回顾一下简单的词频统计程序，参考文章三行命令解决spark词频统计Idea环境中的代码如下import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.Spark...
复制链接

扫一扫