Spark笔记1之Spark介绍

最新推荐文章于 2024-05-23 11:02:20 发布

xiaoliuyiting

最新推荐文章于 2024-05-23 11:02:20 发布

阅读量361

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoliuyiting/article/details/84295437

版权

spark 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

目录

一、什么是Spark

二、Spark的现状

三、spark优势

1、速度speed

2、使用方便

3、强通用性

4、强适应性

四、Spark中的数据模型RDD

官网：https://spark.apache.org/

一、什么是Spark

spark：分布式计算框架，类似hadoop生态圈中的MapReduce（MR分布式计算框架），计算思想和MR相似

都是分而治之的思想

Spark比MR火

二、Spark的现状

2016年底 1000组织正在使用spark

三、spark优势

spark的计算效率比MR要高100倍以上

因为

1、速度speed

1、有向sql无环图，

2、查询优化器（主要用于Spark SQL）

SQL -> sparkSQL ->spark任务 -> 分布式集群中计算

SQL ->Hive -> MR任务 -> 分布式集群中计算

虽然Hive的计算能力不行，但Hive非常适合做数据仓库

3、物理执行引擎

4、资源复用

5、粗粒度的资源调度

2、使用方便

1、支持使用多门语言

2、Spark提供了80多种方法（算子）来供我们使用

scala语言：

基于JVM的编程语言

java和scala可以无缝集成

都是由.class ->JVM

scala和python有99%的相似性

scala简洁方便，但是可读性差

3、强通用性

Spark SQL：通过一条SQL语句在海量数据上查询

Spark Streaming: 流式处理（每产生一条数据就会立马对这条数据进行处理)框架
流式处理框架：Spark Streaming、storm、flink

批处理(等一段时间的数据，在未来的某个时间点，对这些数据进行批量处理)框架

批处理框架：MR、Spark Core

4、强适应性

1、Spark Application 可以运行在各种各样的资源调度框架上，如Yarn、Mesos、 Standalone

2、可接收上百种数据源 Access data in HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.

四、Spark中的数据模型RDD

RDD（Resilient Distributed Datasets）弹性的分布式数据集

在Spark中一切计算都是基于RDD计算的

Spark分布式计算框架

HDFS分布式存储框架

假设Spark处理的数据在HDFS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark笔记1之Spark介绍

目录一、什么是Spark二、Spark的现状三、spark优势1、速度speed2、使用方便3、强通用性4、强适应性四、Spark中的数据模型RDD官网：https://spark.apache.org/一、什么是Spark spark：分布式计算框架，类似hadoop生态圈中的MapReduce（MR分布式计算框架），计算思想和MR相似 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。