Spark生态圈的五大组件:Spark Core、Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。
Spark Streaming: 伪实时的流计算,缓冲时间默认为1S,用于实时处理数据。
Saprk Streaming是spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafka、Flume、Twitter等,我用的是Kafka,偶尔看下Flume,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。
Spark SQL:应用于数据查询,数据存储.Spark SQL可以对接Hive,实现Spark查询Hive仓库数据的功能,底层走的是Spark core.
Spark SQL可以替换公司90%Hive的工作,平均性能提升3倍+
Spark MLlib: Spark MLlib是Spark的机器学习库,具体算法可以参考我的这边十大数据挖掘的算法..www.jianshu.com/p/9c9abd92b8b8
Spark GraphX:是Spark中的图计算框架组件,有算法PageRank、Louvain、LPA、连通子图等。
其中Spark Core是Spark生态圈的核心组件,其他的四大组件都是基于Spark Core上运行的。

最低0.47元/天 解锁文章
9982

被折叠的 条评论
为什么被折叠?



