Spark之wordcount小案例

在虚拟机里

1、编辑需要词频计算的文件(用空格隔开)
在这里插入图片描述
2、在hdfs里新建文件夹WordCount,并把刚刚的words.txt文件上传上去
在这里插入图片描述
3、在spark的目录中启动: bin/spark-shell 进入spark shell中输入:

 sc.textFile("/WordCount/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

结果如图:
在这里插入图片描述

在IDEA里运行

在新建的项目里新建文件夹in和文件word.txt
在这里插入图片描述

编写WordCount.scala

package com.atquiqu.bigdata.spark
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object WordCount {
  def main(args: Array[String]): Unit = {
    //配置信息类
    val config:SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
    //创建Spark上下文对象
    val sc = new SparkContext(config)
    //读取文件,将文件内容一行一行的读取出来
    //路径查找位置默认从当前部署环境中查找
    //如果从本地查找,file:///usr/local/spark/in
    val lines: RDD[String] = sc.textFile("in")
    //将一行一行的数据分解一个一个的单词
    val words: RDD[String] = lines.flatMap(_.split(" "))
    //为了统计方便,将单词数据进行结构的转化
    val wordToOne: RDD[(String, Int)] = words.map((_, 1))
    //对转换结构后的数据进行分组聚合
    val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_ + _)
    //将统计结果采集后打印到控制台
    val result: Array[(String, Int)] = wordToSum.collect()
    result.foreach(println)
  }
}

运行后在控制台可以看到
在这里插入图片描述
排序:在上面的代码21、22行代码改为下面的代码即可实现排序

	val res : RDD[(String,Int)] = wordToSum.sortBy(_._2,false)
    //将统计结果采集后打印到控制台
    val result: Array[(String, Int)] = res.collect()

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值