【大数据处理学习笔记】2.2 搭建Spark开发环境

搭建Spark单机版环境
(一)前提是安装配置好了JDK
查看JDK版本

 

(二)下载、安装与配置Spark
1、下载Spark安装包
官网下载页面:https://spark.apache.org/downloads.html

下载链接:https://www.apache.org/dyn/closer.lua/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz

下载到本地

 

2、将Spark安装包上传到虚拟机
将Spark安装包上传到ied虚拟机/opt目录

 

3、将Spark安装包解压到指定目录
执行命令:tar -zxvf spark-3.3.2-bin-hadoop3.tgz -C /usr/local


查看解压之后的spark目录

 
4、配置Spark环境变量
执行vim /etc/profile

export SPARK_HOME=/usr/local/spark-3.3.2-bin-hadoop3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

存盘退出,执行命令:source /etc/profile,让环境配置生效

 

(三)使用Spark单机版环境
1、使用SparkPi来计算Pi的值
执行命令:run-example SparkPi 2 (其中参数2是指两个并行度)

查看计算结果:Pi is roughly 3.1412357061785308

2、使用Scala版本Spark-Shell
Spark-Shell是一个强大的交互式数据分析工具,初学者可以很好的使用它来学习相关API,用户可以在命令行下使用Scala编写Spark程序,并且每当输入一条语句,Spark-Shell就会立即执行语句并返回结果,这就是我们所说的REPL(Read-Eval-Print Loop,交互式解释器),Spark-Shell支持Scala和Python。
命令格式:spark-shell --master <master-url>
--master表示指定当前连接的Master节点
<master-url>用于指定Spark的运行模式
参数名称    相关说明
local    使用一个Worker线程本地化运行Spark
local[*]    本地运行Spark,工作线程数量与本机CPU逻辑核心数量相同
local[N]    使用N个Worker线程本地化运行Spark
spark://host:port    Standalone模式下,连接到指定的Spark集群,默认端口7077
yarn-client    以客户端模式连接Yarn集群,集群位置可在HADOOP_CONF_DIR环境变量中配置
yarn-cluster    以集群模式连接Yarn集群,集群位置可在HADOOP_CONF_DIR 环境变量中配置
mesos://host:port    连接到指定的Mesos集群。默认接口是5050
执行spark-shell命令,相当于执行spark-shell --master local[*]命令,启动Scala版的Spark-Shell


访问Spark的Web UI界面 - http://ied:4040


注意:Spark 3.3.2使用的Scala版本其实是2.12.15

利用print函数输出了一条信息


计算1 + 2 + 3 + …… + 100


输出字符直角三角形


打印九九表


执行:quit命令,退出Spark Shell交互式环境


3、使用Python版本Spark-Shell
执行pyspark命令启动Python版的Spark-Shell

执行命令:yum -y install pytho

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值