flink与Spark的对比分析[转]

最新推荐文章于 2024-08-29 10:45:33 发布

Albert再出发

最新推荐文章于 2024-08-29 10:45:33 发布

阅读量6.1k

点赞数

本文链接：https://blog.csdn.net/xy83918/article/details/70788045

版权

本文探讨了Apache Flink与Spark的差异，包括数据处理抽象、内存管理、语言实现、API、流处理和批处理的处理方式，以及SQL接口和数据源集成等方面。尽管Spark目前更成熟，但Flink的流处理能力和设计理念提供了独特的价值，值得开发者关注。

摘要由CSDN通过智能技术生成

我们是否还需要另外一个新的数据处理引擎？
当我第一次听到flink的时候这是我是非常怀疑的。在大数据领域，现在已经不缺少数据处理框架了，但是没有一个框架能够完全满足不同的处理需求。
自从Apache spark出现后，貌似已经成为当今把大部分的问题解决得最好的框架了，所以我对另外一款解决类似问题的框架持有很强烈的怀疑态度。
不过因为好奇，我花费了数个星期在尝试了解flink。
一开始仔细看了flink的几个例子，感觉和spark非常类似，心理就倾向于认为flink又是一个模仿spark的框架。但是随着了解的深入，这些API体现了一些flink的新奇的思路，这些思路还是和spark有着比较明显的区别的。我对这些思路有些着迷了，所以花费了更多的时间在这上面。

flink中的很多思路，例如内存管理，dataset API都已经出现在spark中并且已经证明这些思路是非常靠谱的。所以，深入了解flink也许可以帮助我们分布式数据处理的未来之路是怎样的

在后面的文章里，我会把自己作为一个spark开发者对flink的第一感受写出来。因为我已经在spark上干了2年多了，但是只在flink上接触了2到3周，所以必然存在一些bias，所以大家也带着怀疑和批判的角度来看这篇文章吧。
Apache Flink是什么
flink是一款新的大数据处理引擎，目标是统一不同来源的数据处理。这个目标看起来和spark和类似。没错，flink也在尝试解决spark在解决的问题。这两套系统都在尝试建立一个统一的平台可以运行批量，流式，交互式，图处理，机器学习等应用。所以，flink和spark的目标差别并不大，他们最主要的区别在于实现的细节。
后面我会重点从不同的角度对比这两者。
Apache Spark