Spark简介

最新推荐文章于 2023-06-12 12:27:19 发布

小财迷，嘻嘻

最新推荐文章于 2023-06-12 12:27:19 发布

阅读量674

点赞数 1

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48185778/article/details/109535517

版权

文章目录

1、Spark简介
2、Spark特点
- 2.1 为什么使用spark
- 2.2 Spark优势
3、Spark技术栈
4、Spark框架设计
5、Spark架构核心组件

1、Spark简介

诞生于加州大学伯克利分校AMP实验室，是一个基于内存的分布式计算框架。
发展历程
2009年诞生于加州大学伯克利分校AMP实验室
2010年正式开源
2013年6月正式成为Apache孵化项目
2014年2月成为Apache顶级项目
2014年5月正式发布Spark 1.0版本
2014年10月Spark打破MapReduce保持的排序记录
2015年发布了1.3、1.4、1.5版本
2016年发布了1.6、2.x版本

2、Spark特点

2.1 为什么使用spark

MapReduce编程模型的局限性

1、繁杂，只有Map和Reduce两个操作，复杂的逻辑需要大量的样板代码

2、处理效率低，Map中间结果写磁盘，Reduce写HDFS，多个Map通过HDFS交换数据，任务调度与启动开销大

3、不适合迭代处理、交互式处理和流式处理
Spark是类Hadoop MapReduce的通用并行框架

1、Job中间输出结果可以保存在内存，不再需要读写HDFS

2、比MapReduce平均快10倍以上

2.2 Spark优势

速度快

基于内存数据处理，比MR快100个数量级以上（逻辑回归算法测试）

基于硬盘数据处理，比MR快10个数量级以上
<

最低0.47元/天解锁文章

小财迷，嘻嘻

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark简介

文章目录1、Spark简介2、Spark特点2.1 为什么使用spark2.2 Spark优势3、Spark技术栈3.1 Spark SQL3.2 Spark Steaming3.3 Spark GraphX3.4 Spark MLlib4、Spark框架设计5、Spark架构核心组件1、Spark简介诞生于加州大学伯克利分校AMP实验室，是一个基于内存的分布式计算框架。发展历程2009年诞生于加州大学伯克利分校AMP实验室2010年正式开源2013年6月正式成为Apache孵化项目2
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。