什么是Spark
Spark 是基于内存的用于大规模数据处理(离线计算,实时计算,快速计算)的统一分析引擎,也是一个生态系统
Spark社区界面
Spark 特点
1 速度快
比mapreduce 快100 倍
2 易用(算法多,这个易用是与hadoop的mapreduce对比)
MR只支持一个算法 ,Spark支持多种算法
3通过(Spark的生态系统)
Spark 支持离线计算 , 实时计算,快速查询 机器学习 图计算
4 兼容性强
支持大数据中现有的Yarn Mesos 调度平台 ,可以处理hadoop 支持的数据
Spark为什么会流行
1 支持多种计算模型,而且基于内存(内存比硬盘速度快)
2 RDD 是一个可以容错且并行的数据结构
Spark的神态圈
Spark 各个模块的作用
Spark Core : 实现Spark 基本功能 (RDD)
Spark SQL : 操作结构化数据
SparkStreaming: 对实时数据进行流式计算
Spark MLib: 机器学习 (淘宝推荐)
GrapHx :图计算的API (人与人之间的好友推荐)
Spark 与 Hadoop 的区别
hadoop 不支持流计算
Spark 运行的模式
local 本地运行模式 – 开发测试使用 (idea)
standalone 独立集群模式 开发测试使用
standalone-Ha 高可用模式 ---- 生产环境使用
on yarn 集群模式–生产环境模式
on mesos 集群模式
on cloud 集群模式
Spark 的安装
1 上传 spark压缩包 解压
如果不是root 就修改权限
2 开箱即用
启动Spark 进入 Spark 的bin目录 ./spark-shell
2 ./spark-shell --master local[*] 意思本地主节点可以使用多少资源
3 ./spark-shell --master local [2] 表示本地模式有几个线程可以使用
单机模式 读取本地文件
改路径
集群跑(单机模式)
启动集群
上传文件到hdfs上
把这条密令考到 spark-shell 窗口
******-------------------------------------------- ******
standalone 集群模式的部署
第二
设置从节点(工作中)
建议不要修改环境变量 (冲突)
进入到sbin 目录启动
简单介绍
集群运行模式
启动每个节点
进入spark-shell 时指定主节点
--------------------
standloneHA 集群的部署
原理HA
添加
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181 -Dspark.deploy.zookeeper.dir=/spark"
分发到其他节点
启动zk 另一个单多启动
on yarn 的暗装部署
1 保证hadoop 的正常安装
2 保证单机版安装成功
3 再上一个的基础上添加一个路径
把salves 文件node02 node03 删除 改为localhost
有 yarn 放到各个节点上 ,
onyarn两种模式
cluster 集群
client 客户端模式
区别
onyarn 的参数
了解