不想搭集群,直接用spark

   为了完成布置的作业,需要用到spark的本地模式,根本用不到集群,就不想搭建虚拟机,hadoop集群啥的,很繁琐,最后写作业还用不到集群(感觉搭建集群对于我完成作业来说没有什么意义),所以才想办法在windows环境下,直接安装jdk、scala、spark等,使用spark的本地模式来写作业

步骤:

1. 安装jdk

检查了,发现我自己电脑(windows)上已经安装过jdk了,环境变量也配置好了,

path路径中也设置好了jdk的路径 

2. 下载安装scala

检查自己电脑上有没有安装scala

很好,没有安装scala,那就从官网上下载2.11.12版本,官网:

The Scala Programming Language (scala-lang.org)

路径是在E盘下:

配置环境变量:

进入cmd,scala的路径下,输入scala,如下图所示,即为成功安装scala

3. 下载maven

maven已经下载好了,新建一个文件夹Localwarehouse,用来保存下载的依赖文件

配置maven的系统环境配置

cmd下验证,已经成功

配置maven: 记得修改完文件之后保存!

继续添加如下代码用来配置jdk版本

4. 验证idea是否安装好了

输出hello world 证明安装成功

idea的一些使用方法:

  1. 字体设置:file–>settings–>输入font–>设置字体样式以及字号大小;

  2. 快捷生产main方法:psvm;

  3. 快速生产System.out.println():sout;

  4. 删除一行:选中需要删除的那一行,ctrl+y;

5. 将maven加载到idea中

 6. 安装scala插件

由于我的idea在plugins里搜索不到scala插件,所以可以官网上下载跟自己idea版本对应的scala插件,在idea安装目录下的plugins下,然后重启idea,就可以搜索到scala插件已经安装上了。

7.下载安装hadoop

Index of apache-local/hadoop/core/hadoop-3.2.2icon-default.png?t=N7T8https://repo.huaweicloud.com/apache/hadoop/core/hadoop-3.2.2/环境变量配置好后,执行 hadoop version 出现以下异常

 解决办法:

 都修改完之后,执行hadoop version成功

8.Spark 安装和配置 

安装的是3.0.2的版本

下载地址:

https://archive.apache.org/dist/spark/spark-3.0.2/

解压spark安装包,解压到E:\spark-3.0.2-bin-hadoop3.2

在系统环境变量中添加SPARK_HOME,并SPARK_HOME添加到系统环境变量的Path中。

cmd中执行spark-shell,出现如下警告

解决办法:

 到这里 GitHub - cdarlint/winutils: winutils.exe hadoop.dll and hdfs.dll binaries for hadoop windows 下载和你的 Hadoop 版本对应的工具所在的整个目录,比如 hadoop-3.2.0

把下载的文件中的 winutils.exe 拷贝到上述文件夹中

重新运行spark-shell,执行成功

 可通过http://DESKTOP-O202EN9:4040来查看web UI界面

9. idea里配置spark

新建maven项目、配置pom.xml文件等主要参考的是:

在IDEA运行spark程序(搭建Spark开发环境)_idea spark-CSDN博客

在这里声明一下我所用的版本都是多少,在我解决bug的过程中,这里边多少存在一些版本不对应的问题:

scala版本:2.11.12

hadoop的下载的包是:hadoop-3.2.2.tar.gz

spark下载的包是:spark-3.0.2-bin-hadoop3.2.tgz

maven的版本是:apache-maven-3.8.3

pom文件中的版本依赖如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>TestDemo1</groupId>
    <artifactId>TestDemo1</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <!-- 声明scala的版本 -->
        <scala.version>2.11.12</scala.version>
        <!-- 声明linux集群搭建的spark版本,如果没有搭建则不用写 -->
        <!-- <spark.version>3.2.1</spark.version> -->
        <!-- 声明linux集群搭建的Hadoop版本 ,如果没有搭建则不用写-->
        <!-- <hadoop.version>3.1.4</hadoop.version>-->
    </properties>
    <dependencies>
        <!--scala-->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.4.5</version>
            <scope>provided</scope>
        </dependency>
    </dependencies>


</project>

运行上个参考的博客里的WordCount程序的运行结果:

(注意:words.txt的路径我写了绝对路径,可以保证不出错,还有就是,是words.txt不是word.txt,word是有一个s 的,大家一定要注意,要不然会出现找不到路径下文件的错误,我解决了好久才发现是我文件名字没加s,呜呜呜~~白浪费了我那么多时间去解决这个Bug)

  • 31
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
如果您想使用Java代码直接提交Spark任务,可以使用 Spark 的 Java API 中的 `SparkConf` 和 `JavaSparkContext` 类来完成。以下是一个简单的示例,说明如何使用 Java 代码提交 Spark 任务: ```java import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class SparkExample { public static void main(String[] args) { String appName = "Spark Example"; String master = "spark://<master-url>:7077"; // master节点的地址 SparkConf conf = new SparkConf().setAppName(appName).setMaster(master); JavaSparkContext sc = new JavaSparkContext(conf); // 创建JavaSparkContext对象 // 创建RDD JavaRDD<String> inputRDD = sc.textFile("<hdfs-or-local-path>"); // 对RDD进行转换和操作 JavaRDD<String> outputRDD = inputRDD.filter(line -> line.contains("spark")); // 输出结果 outputRDD.saveAsTextFile("<hdfs-or-local-path>"); // 关闭JavaSparkContext对象 sc.stop(); } } ``` 在这个示例中,我们先创建了一个 `SparkConf` 对象,并设置了应用程序的名称和 master 节点的地址。然后,我们用这个 `SparkConf` 对象创建了一个 `JavaSparkContext` 对象。接下来,我们通过 `JavaSparkContext` 对象创建了一个 `JavaRDD` 对象,并进行了一些转换和操作。最后,我们将结果保存到 HDFS 或本地文件系统中,并关闭 `JavaSparkContext` 对象。 需要注意的是,您需要在您的 Java 项目中添加 Spark 的依赖,以便您的代码能够访问 Spark 的 API。您可以使用 Maven 或 Gradle 等构建工具来管理依赖。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

又是被bug折磨的一天

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值