计算引擎

最新推荐文章于 2024-07-11 20:13:28 发布

Abad_boy

最新推荐文章于 2024-07-11 20:13:28 发布

阅读量468

点赞数

分类专栏： TAL 文章标签： flink spark

原文链接：https://blog.csdn.net/weixin_40247263/article/details/97000109

版权

TAL 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

计算引擎

1) Flink 和 Spark 对比

通过前面的学习，我们了解到，Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先，这两个数据处理框架有很多相同点：

都基于内存计算；
都有统一的批处理和流处理APl；
都支持类似SQL的编程接口；
都支持很多相同的转换操作，编程都是用类似于Scala Collection APl的函数式编程模式；
都有完善的错误恢复机制；
都支持Exactly once的语义一致性。

当然，它们的不同点也是相当明显，我们可以从4个不同的角度来看：

从流处理的角度来讲，Spark基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，所以延迟性只能做到秒级。而Flink基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。由于相同的原因，Spark只支持基于时间的窗口操作（处理时间或者事件时间），而Flink支持的窗口操作则非常灵活，不仅支持时间窗口，还支持基于数据本身的窗口，开发者可以自由定义想要的窗口操作。
从SQL 功能的角度来讲，Spark和Flink分别提供SparkSQL和Table APl提供SQL
交互支持。两者相比较，Spark对SQL支持更好，相应的优化、扩展和性能更好，而Flink在SQL支持方面还有很大提升空间。
从迭代计算的角度来讲，Spark对机器学习的支持很好，因为可以在内存中缓存中间计算结果来加速机器学习算法的运行。但是大部分机器学习算法其实是一个有环的数据流，在Spark中，却是用无环图来表示。而Flink支持在运行时间中的有环数据流，从而可以更有效的对机器学习算法进行运算。
从相应的生态系统角度来讲，Spark 的社区无疑更加活跃。Spark可以说有着Apache旗下最多的开源贡献者，而且有很多不同的库来用在不同场景。而Flink由于较新，现阶段的开源社区不如Spark活跃，各种库的功能也不如Spark全面。但是Flink还在不断发展，各种功能也在逐渐完善。

2)cube

对于每一种维度的组合，将度量做聚合计算，然后将运算的结果保存为一个物化视图，称为Cuboid。所有维度组合的Cuboid作为一个整体，被称为Cube。将计算的结果保存为物化视图，所有Cuboid物化视图的总称就是Cube。

Abad_boy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算引擎

计算引擎1) Flink 和 Spark 对比通过前面的学习，我们了解到，Spark和Flink都支持批处理和流处理，接下来让我们对这两种流行的数据处理框架在各方面进行对比。首先，这两个数据处理框架有很多相同点：都基于内存计算；都有统一的批处理和流处理APl；都支持类似SQL的编程接口；都支持很多相同的转换操作，编程都是用类似于Scala Collection APl的函数式编程模式；都有完善的错误恢复机制；都支持Exactly once的语义一致性。当然，它们的不同点也是相当明显，
复制链接

扫一扫