【大数据处理学习笔记】2.2 搭建Spark开发环境

最新推荐文章于 2024-03-31 23:09:28 发布

VIP文章闷得儿蜜的啊秋呀

最新推荐文章于 2024-03-31 23:09:28 发布

阅读量635

点赞数

文章标签：学习笔记 spark

本文链接：https://blog.csdn.net/weixin_63745352/article/details/131253120

版权

搭建Spark单机版环境
（一）前提是安装配置好了JDK
查看JDK版本

（二）下载、安装与配置Spark
1、下载Spark安装包
官网下载页面：https://spark.apache.org/downloads.html

下载链接：https://www.apache.org/dyn/closer.lua/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz

下载到本地

2、将Spark安装包上传到虚拟机
将Spark安装包上传到ied虚拟机/opt目录

3、将Spark安装包解压到指定目录
执行命令：tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local

查看解压之后的spark目录

4、配置Spark环境变量
执行vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出，执行命令：source /etc/profile，让环境配置生效

（三）使用Spark单机版环境
1、使用SparkPi来计算Pi的值
执行命令：run-example SparkPi 2 （其中参数2是指两个并行度）

查看计算结果：Pi is roughly 3.1412357061785308

2、使用Scala版本Spark-Shell
Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
命令格式：spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式
参数名称   相关说明
local   使用一个Worker线程本地化运行Spark
local[*]   本地运行Spark，工作线程数量与本机CPU逻辑核心数量相同
local[N]   使用N个Worker线程本地化运行Spark
spark://host:port   Standalone模式下，连接到指定的Spark集群，默认端口7077
yarn-client   以客户端模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR环境变量中配置
yarn-cluster   以集群模式连接Yarn集群，集群位置可在HADOOP_CONF_DIR 环境变量中配置
mesos://host:port   连接到指定的Mesos集群。默认接口是5050
执行spark-shell命令，相当于执行spark-shell --master local[*]命令，启动Scala版的Spark-Shell

访问Spark的Web UI界面 - http://ied:4040

注意：Spark 3.3.2使用的Scala版本其实是2.12.15

利用print函数输出了一条信息

计算1 + 2 + 3 + …… + 100

输出字符直角三角形

打印九九表

执行:quit命令，退出Spark Shell交互式环境

3、使用Python版本Spark-Shell
执行pyspark命令启动Python版的Spark-Shell

执行命令：yum -y install pytho

最低0.47元/天解锁文章

闷得儿蜜的啊秋呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【大数据处理学习笔记】2.2 搭建Spark开发环境

Executor为应用程序运行在Worker节点上的一个进程，由Worker进程启动，负责执行具体的Task，并存储数据在内存或磁盘上。Spark-Shell是一个强大的交互式数据分析工具，初学者可以很好的使用它来学习相关API，用户可以在命令行下使用Scala编写Spark程序，并且每当输入一条语句，Spark-Shell就会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），Spark-Shell支持Scala和Python。
复制链接

扫一扫