大数据原理-Spark

最新推荐文章于 2022-05-20 14:06:08 发布

monster++

最新推荐文章于 2022-05-20 14:06:08 发布

阅读量188

点赞数

分类专栏：大数据原理文章标签：分布式编程语言分布式计算 hadoop spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45583358/article/details/105651701

版权

大数据原理专栏收录该内容

8 篇文章 0 订阅

订阅专栏

概述：

基于内存计算
三大分布式计算系统：Hadoop、Spark、Storm

特点：

采用有向无环图DAG作业调度
运行速度快
循环数据流
容易使用：可以通过Spark Shell交互式编程
用途：SQL查询、流式计算、机器学习、图算法组件
部署：Hadoop的yarn框架调度、单独部署等等

Spark主要语言：

Scala（scalable可扩展）：多范式编程语言（面向对象、函数式编程）
兼容Java可以运行在JVM，强大并发性，更好支持分布式系统

Spark生态系统：

复杂的批量数据处理：MR
历史数据的交互式查询：Impala
实时数据流处理：Storm

内存计算：Spark Core
交互式查询分析：Spark SQL
流计算： Spark Streaming
机器学习算法库组件：Mlib
图计算：GraphX

运行架构：

RDD：分布式内存抽象概念
DAG：有向无环图
Executor：负责运行任务Task
Application：编写Spark
Task：工作单元
Job：包含多个RDD
Stage：Job基本调度单位（任务集合）

worknode 中有execute

一个Application由一个Driver管家和多个worker node

运行基本流程：

Driver构建运行环境：创建SparkContext与资源管理器申请资源
资源管理器为Execute申请资源
根据RDD依赖关系构建DAG，DAG提交给DAGScheduler解析成Stage
把TaskSet提交给TaskScheduler
Execute申请Task，运行

RDD：
分布式对象集合
不断转换
不需要不断写入磁盘

Spark SQL
Shark：hive on Spark

部署应用：

Standalone
Spark on Mesos
Spark on YARN
底层HDFS存储 YARN资源调度部署Spark

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据原理-Spark

概述：基于内存计算三大分布式计算系统：Hadoop、Spark、Storm特点：采用有向无环图DAG作业调度运行速度快循环数据流容易使用：可以通过Spark Shell交互式编程用途：SQL查询、流式计算、机器学习、图算法组件部署：Hadoop的yarn框架调度、单独部署等等Spark主要语言：Scala（scalable可扩展）：多范式编程语言（面向对象、函数式编程）兼容...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。