spark案例——wordcount

最新推荐文章于 2023-03-16 15:17:41 发布

风_间

最新推荐文章于 2023-03-16 15:17:41 发布

阅读量584

点赞数

分类专栏： spark 文章标签： spark scala big data

本文链接：https://blog.csdn.net/weixin_45399602/article/details/120666629

版权

spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

local本地模式

添加pom依赖

<properties>
    <scala.version>2.12.0</scala.version>
  </properties>

<dependencies>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>${scala.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.12</artifactId>
      <version>3.0.0</version>
    </dependency>
  </dependencies>

自行准备一个文件word.txt

//创建spark运行配置对象
    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

    //创建spark上下文对象(连接对象)
    val sc: SparkContext = new SparkContext(sparkConf)

    //读取文件
    val file: RDD[String] = sc.textFile("src/main/inputfile/word.txt")
	//如果文件在hdfs上
	// val file: RDD[String] = sc.textFile("hdfs://ip地址:9820/study/sparktest/word.txt")

    //计算
    file.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKey(_+_)
      .collect()
      .foreach(println)

    sc.stop()

如果想要保存结果

 sc.textFile("src/main/inputfile/word.txt")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      .repartition(1)
        .saveAsTextFile("地址")