Spark生态圈

Spark生态圈的五大组件:Spark Core、Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

Spark Streaming: 伪实时的流计算,缓冲时间默认为1S,用于实时处理数据。

Saprk Streaming是spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafka、Flume、Twitter等,我用的是Kafka,偶尔看下Flume,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。

Spark SQL:应用于数据查询,数据存储.Spark SQL可以对接Hive,实现Spark查询Hive仓库数据的功能,底层走的是Spark core.

Spark SQL可以替换公司90%Hive的工作,平均性能提升3倍+

Spark MLlib: Spark MLlib是Spark的机器学习库,具体算法可以参考我的这边十大数据挖掘的算法..www.jianshu.com/p/9c9abd92b8b8

Spark GraphX:是Spark中的图计算框架组件,有算法PageRank、Louvain、LPA、连通子图等。

其中Spark Core是Spark生态圈的核心组件,其他的四大组件都是基于Spark Core上运行的

Spark工作机制图解

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值