Spark的搭建及模式

最新推荐文章于 2024-05-21 21:41:07 发布

牛犊6

最新推荐文章于 2024-05-21 21:41:07 发布

阅读量173

点赞数

本文链接：https://blog.csdn.net/weixin_45793819/article/details/105281111

版权

什么是Spark
Spark 是基于内存的用于大规模数据处理（离线计算，实时计算，快速计算）的统一分析引擎，也是一个生态系统

Spark社区界面

http://spark.apache.org/

在这里插入图片描述

Spark 特点
1 速度快
比mapreduce 快100 倍
2 易用（算法多，这个易用是与hadoop的mapreduce对比）
MR只支持一个算法，Spark支持多种算法
3通过（Spark的生态系统）
Spark 支持离线计算，实时计算，快速查询机器学习图计算
4 兼容性强
支持大数据中现有的Yarn Mesos 调度平台，可以处理hadoop 支持的数据

Spark为什么会流行
1 支持多种计算模型，而且基于内存（内存比硬盘速度快）
2 RDD 是一个可以容错且并行的数据结构

Spark的神态圈
在这里插入图片描述
Spark 各个模块的作用
Spark Core ：实现Spark 基本功能（RDD）
Spark SQL ：操作结构化数据
SparkStreaming: 对实时数据进行流式计算
Spark MLib: 机器学习 (淘宝推荐)
GrapHx ：图计算的API （人与人之间的好友推荐）

Spark 与 Hadoop 的区别
hadoop 不支持流计算
在这里插入图片描述

在这里插入图片描述

Spark 运行的模式
local 本地运行模式 – 开发测试使用（idea）
standalone 独立集群模式开发测试使用
standalone-Ha 高可用模式 ---- 生产环境使用
on yarn 集群模式–生产环境模式
on mesos 集群模式
on cloud 集群模式

Spark 的安装
1 上传 spark压缩包解压
如果不是root 就修改权限
在这里插入图片描述
2 开箱即用

启动Spark 进入 Spark 的bin目录 ./spark-shell

2 ./spark-shell --master local[*] 意思本地主节点可以使用多少资源
3 ./spark-shell --master local [2] 表示本地模式有几个线程可以使用

单机模式读取本地文件

在这里插入图片描述
改路径

集群跑（单机模式）
启动集群
上传文件到hdfs上
在这里插入图片描述
把这条密令考到 spark-shell 窗口

--------------------------------------------

standalone 集群模式的部署
在这里插入图片描述

在这里插入图片描述
第二
设置从节点（工作中）

建议不要修改环境变量（冲突）

进入到sbin 目录启动

简单介绍
在这里插入图片描述

集群运行模式
启动每个节点
进入spark-shell 时指定主节点
在这里插入图片描述

--------------------
standloneHA 集群的部署

原理HA
在这里插入图片描述

在这里插入图片描述

添加

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=node01:2181,node02:2181,node03:2181  -Dspark.deploy.zookeeper.dir=/spark"

在这里插入图片描述

分发到其他节点
在这里插入图片描述

启动zk 另一个单多启动
在这里插入图片描述

on yarn 的暗装部署
1 保证hadoop 的正常安装
2 保证单机版安装成功
3 再上一个的基础上添加一个路径
在这里插入图片描述
把salves 文件node02 node03 删除改为localhost
有 yarn 放到各个节点上，

onyarn两种模式

cluster 集群
client 客户端模式
在这里插入图片描述

区别
在这里插入图片描述

onyarn 的参数
在这里插入图片描述

了解
在这里插入图片描述

牛犊6

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark的搭建及模式

什么是SparkSpark 是基于内存的用于大规模数据处理（离线计算，实时计算，快速计算）的统一分析引擎，也是一个生态系统Spark社区界面http://spark.apache.org/Spark 特点1 速度快比mapreduce 快100 倍2 易用（算法多，这个易用是与hadoop的mapreduce对比）MR只支持一个算法，Spark支持多种算法3通过（Spark的...
复制链接

扫一扫