Java maven开发spark 统计文本中每行单词出现的次数

package spark;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

/*
统计每行单词出现的次数

 */
public class LineCount {
    public static void main(String[] args) {

        //创建SparkConf
        SparkConf conf = new SparkConf()
                .setAppName("LineCount")
                .setMaster("local");

        //创建javaSparkContext
        JavaSparkContext sc = new JavaSparkContext(conf);

        //创建初始RDD,lines,每个元素是一行文本
        JavaRDD<String> lines = sc.textFile("E:\\hello.txt");
        JavaPairRDD<String, Integer> pairs = lines.mapToPair(
                new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String t) throws Exception {
                return new Tuple2<String, Integer>(t,1);
            }
        });

        //对pairsRDD执行reduceByKey算子,统计出每一行出现的总次数
        JavaPairRDD<String,Integer> lineCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 + v2;
            }
        });

        //执行一个action操作,foreach,打印出,每一行出现的次数
        lineCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> t) throws Exception {
                System.out.println(t._1+ "出现" + t._2 + " 次");
            }
        });
        //关闭JavaSparkContext
        sc.close();
    }
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark本地开发环境搭建需要以下步骤: 1. 安装Java JDK和Scala:首先需要安装Java JDK和Scala,可以从官网下载安装包进安装。 2. 安装MavenMaven是一个项目管理工具,可以从官网下载安装包进安装。 3. 下载Spark:从官网下载Spark的二进制包,解压到本地目录。 4. 配置环境变量:将Java、Scala和Maven的bin目录添加到系统环境变量。 5. 配置Spark:在Spark的conf目录下,将spark-env.sh.template文件复制一份并重命名为spark-env.sh,然后编辑该文件,设置JAVA_HOME、SCALA_HOME和SPARK_HOME等环境变量。 6. 编写Spark应用程序:使用Scala或Java编写Spark应用程序,并使用Maven依赖管理和打包。 7. 运Spark应用程序:使用spark-submit命令提交Spark应用程序,即可在本地运Spark应用程序。 以上就是Spark本地开发环境搭建的步骤。 ### 回答2: Spark是一个用于大数据处理的强大框架,但在开始实际工作之前,首先需要为Spark构建本地开发环境。在本文,我将向您介绍如何搭建基于Maven、Scala和Java的本地Spark开发环境。 第一步:安装Java Spark依赖于Java开发和运。因此,必须先安装Java。您可以从Oracle官网下载Java JDK。安装完成后,请确保已将JAVA_HOME环境变量设置为JDK的安装路径。 第二步:安装Scala Scala是一种支持面向对象和函数式编程的高级编程语言。在Spark开发,Scala最常用。要安装Scala,请按照Scala官方安装指南安装Scala,并将其放入系统路径。 第三步:安装Maven MavenJava项目的依赖管理器。它可以下载项目所需的所有依赖项,并将它们自动放置在项目的类路径下,以加速开发和构建过程。请前往Maven官方网站下载并安装Maven,并将其添加到系统路径。 第四步:下载SparkSpark官网下载Spark。解压缩下载的Spark二进制文件并将其放入系统路径。 第五步:创建示例应用程序 在本地实例创建一个Spark示例应用程序。为此,首先创建一个Maven项目,并将以下依赖项添加到项目的POM.xml文件: ``` <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.6.1</version> </dependency> ``` 使用Scala创建Spark应用程序,并将其保存在src/main/scala目录下: ``` import org.apache.spark.{SparkConf, SparkContext} object ExampleApp { def main(args: Array[String]) { val conf = new SparkConf().setAppName("ExampleApp").setMaster("local[2]") val sc = new SparkContext(conf) val data = Array(1, 2, 3, 4, 5) val rdd = sc.parallelize(data) val result = rdd.reduce(_ + _) println(result) sc.stop() } } ``` 第六步:构建项目 使用Maven构建,编译并将项目打包成jar文件。要构建项目,请在项目根目录下运以下命令: ``` mvn package ``` 第七步:运Spark应用程序 在项目目录,使用以下命令运Spark应用程序: ``` ./bin/spark-submit --class ExampleApp target/ExampleApp-1.0-SNAPSHOT.jar ``` 恭喜!你已经成功地创建了一个基于Maven、Scala和Java的本地Spark开发环境。现在您可以使用您的Spark应用程序和环境去探索和开发更多有趣的大数据应用程序。 ### 回答3: Spark是一个专门针对大规模数据处理的计算引擎,其本身需要依赖于Java和Scala等编程语言来实现数据处理的应用,因此需要在本地搭建开发环境来进Spark开发。 以下是搭建Spark本地开发环境的步骤: 第一步:安装Java开发环境(JDK) 在Spark,需要使用Java 8或更高版本,因此需要在本地安装Java开发环境。为了避免不同版本之间的冲突,建议使用Oracle JDK。 第二步:安装Scala Scala是Spark的支持语言之一,因此需要安装Scala。你可以在Scala官网上选择合适的版本来进安装。安装Scala之后可以使用命令来测试Scala是否成功。 第三步:安装Maven Maven是一个项目管理和构建工具,用于处理依赖关系,并生成可执的Jar包。在Spark开发过程通常使用Maven依赖管理和打包。你可以在Maven官网上下载安装包,安装完成后可使用命令测试Maven是否成功。 第四步:安装Spark 安装Spark需要先下载Spark源代码包,选择合适的版本进下载,并解压缩。之后在命令输入mvn package -DskipTests来构建Spark。构建完成后即可在target文件夹下找到生成的Spark应用包。 第五步:验证安装 在安装完成后,可以使用IDE(如IntelliJ IDEA)或者命令来验证是否安装成功。在IDE,可以创建一个Scala项目并导入Spark的相关依赖后,编写Spark应用程序来进测试。在命令,可以使用spark-shell命令进入交互模式来执Spark相关命令,验证是否成功。 总结: 以上就是Spark本地开发环境搭建的步骤。虽然过程比较繁琐,但只需要按照以上步骤进安装,就能轻松地搭建起一个Spark本地开发环境。在上述环境下,你可以进Spark开发和调试,处理大规模数据集。最后需要提醒注意的是,为了保证Spark应用程序能够正常运,需要根据实际需要选择适当的硬件和软件资源。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值