Spark特点

最新推荐文章于 2022-11-02 03:00:17 发布

飞飞好奇

最新推荐文章于 2022-11-02 03:00:17 发布

阅读量3.5k

点赞数

分类专栏： spark 文章标签： spark scala java 缓存 akka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xf_87/article/details/53735272

版权

spark 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Spark特点

1、先进架构

Spark采用Scala语言编写，底层采用了actor mode的akka作为通讯框架，代码十分简洁高效。

基于DAG图的执行引擎，减少多次计算之间中间结果写到hdfs的开销。

建立在统一抽象的RDD（分布式内存抽象）之上，使得它可以以基本一致的方式应对不同的大数据处理场景。

2、高效

提供Cache机制来支持需要反复迭代的计算或者多次数据共享，减少数据读取的IO开销。

3、易用

Spark提供广泛的数据集操作类型（20+种），不像Hadoop只提供了Map和Reduce两种操作。

Spark支持Java,Python 和Scala API

4、提供整体解决方案

Spark内存承诺狐狸

Spark SQL交互式处理

Spark Streaming 是建立在Spark上的实时计算框架，通过它提供丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互式查询应用。

Spark MLlib 是Spark对常用的机器学习算法的实现库，同时包括相关的测试和数据生成器。

Spark GraphX 是一个分布式图处理框架，基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口，极大方便了大家对分布式图处理的需求。

5、与Hadoop无缝连接

Spark可以使用YARN作为他的集群管理器

读取HDFS，HBase等一切Hadoop的数据

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark特点

Spark特点1、先进架构Spark采用Scala语言编写，底层采用了actor mode的akka作为通讯框架，代码十分简洁高效。基于DAG图的执行引擎，减少多次计算之间中间结果写到hdfs的开销。建立在统一抽象的RDD（分布式内存抽象）之上，使得它可以以基本一致的方式应对不同的大数据处理场景。2、高效提供Cache机制来支持需要反复迭代的计算或者多次数据共享，减少数据读
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。