Spark准备

基础信息

版本:2.3.0
官网下载 download
支持:Java 8+, Python 2.7+/3.4+ and R 3.1+
Scala :2.11.x

安装完成后,跑一跑

./bin/run-example SparkPi 10

./bin/spark-shell --master local[2]

–master 选项描述
url集群模式下,提交执行程序到主节点为url的机群上
local本地模式,运行一个线程来执行程序,用于测试
local[N]本地模式,运行N个线程来执行程序 ,用于测试

Spark应用程序相关概念

Spark application(Spark应用程序):一组运行在Spark集群上的进程集合,由一个Driver Program,多个Executor进程组成。前面使用的spark-shell就是一个应用程序
单个应用程序架构组成如下图:
在这里插入图片描述Driver Program(驱动程序):一个使用java或scala编写,并在其中初始化SparkContext、创建RDD进行一系列转换或行动的main方法。调度、监控Executor,并与之交互数据
Cluster Manager(集群管理器):Spark自身standalone模式集群管理器或其他第三方Mesos 、YARN管理器,给应用程序分配资源
Work Node(工作节点):跑应用程序进程的机器
Executor(干活的人):干活的jvm。执行应用程序计算任务,存储数据,返回数据给driver
Cache(缓存数据):执行中缓存使用的数据
Task(任务):执行计算任务

其他相关概念

Deploy mode(部署模式):区分driver在哪里运行。若是cluster,则把driver运行在集群上。若是cluster,则把driver运行在集群外,一般就是在提交本地
Job(作业):由多个Task并行执行组成的计算,由action操作触发。
Stage(阶段):一组按规则划分的Task集合

Spark应用的提交

使用spark-submit 来提交应用程序到集群

Spark应用的监控

每一个Driver Program都有一个WebUI,端口默认4040,用于查看Task、Executor运行状况及空间用量。使用浏览器浏览http://< driver-node >:4040即可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值