Flink被阿里收购4年,最开心的却是Spark背后的Databricks

最近,Flink Forward Asia(FFA)峰会成功举行,有关Flink的讨论,又开始在国内热闹起来。

2022 年,Apache Flink 社区保持快速发展:GitHub Star 数突破 2 万,单月下载量突破 1400 万次;
Apache Flink 项目所有 PR 中有 45% 来自中国开发者;
Apache Flink 已成为实时流计算全球范围事实标准。
从峰会给出的数据来看:Flink确实已经发展的越来越好,无论是技术层面还是使用规模。

但要指望Flink哪天能够像Spark背后的母公司Databricks那样,估值几百亿美金,估计有点难。

因为从Flink被阿里收购的那一刻起,它的商业化就充满了困难。

麦聪软件,全球领先的DaaS厂商,轻量级数据中台领导者。 目前,麦聪DaaS平台在世界500强集团中已有30多家选用,两年内帮助超400家加速企业数字化转型。麦聪DaaS平台核心功能包含,统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务相关功能,欢迎大家带着企业数字化问题与我们一起讨论。

01

Flink商业前景为何不如Spark

2019年,阿里巴巴以9000万欧元收购了Flink背后的公司 Data Artisans。

在这里插入图片描述
阿里收购Data Artisans

作为阿里掌管的Flink,开源版本到底做什么不做什么,阿里就有很大的发言权和控制权。

阿里巴巴如果要说服其他云厂商,比如腾讯云、华为云,或者AWS、 Azure等都上一个好用的Flink服务,其他人就会在想,你阿里巴巴掌握了开源,还能够在自己的云上做一个更好的闭源系统,我们怎么和你做竞争。

在这里插入图片描述
2021年全球云计算市场份额

开源项目由一家公有云公司主导,还是一个计算引擎,直接的结果,就是各大公有云公司都觉得没办法玩了。

所有的云厂商都有顾虑,都很难推出自己的针对开源Flink的增强版本。

而阿里巴巴当然是有机会推出针对Flink的增强的商业版本的,而且还能够很好兼容开源的Flink,但是客户未必敢用了。

知乎关于Flink的讨论

客户觉得,我一方面用了你的商业版本,一方面又必须/不得不上你的公有云,被你绑得死死的,那我怎么办?

所以:客户肯定是不到万不得已绝不上Flink,先用其他工具吧。万不得已要上Flink,最好也就上一个自己搭的开源版了。

02 Spark为什么能成功

Spark的母公司,Databricks之所以能成功,有一个很重要的因素,它是云厂商中立的。它既存在于AWS,也上了Azure,也登入了GCP甚至阿里巴巴的云端。

在这里插入图片描述
Azure Databricks

这样的做法,可以让很多企业放心,包括可以让各大云厂商放心使用。

Databricks可以搞一个商业版,里面有更多的功能,更好的和Spark兼容但是提供更高效的处理引擎等等,这没什么问题。

各大云厂商,也可以自己搞Spark的增强版,互相之间在不同云平台PK,问题都不大。

因为开源的Spark,还是在一家云中立公司的掌控中。这家公司本身,并没有特别偏好某个云。

03 Flink技术上确实已经足够强大

Flink凭借 " 有状态的流计算 " 这个核心理念和特色,诞生之初就快速打败了上一代流计算引擎 Storm。

通过合流式计算和状态管理两项技术,Flink 不仅提供了高性能的纯流式计算,同时也在框架层通过分布式一致性快照技术,为用户提供了数据精准一致性保证。

在这里插入图片描述
当前支持应用场景

而在批计算方面,Flink 已经完成绝大部分工作,并日益成熟。目前 Flink 已经能够完整跑通批处理标准测试集 TPC-DS,已经达到主流批处理引擎水平。

此外:Flink 在 SQL 层提供了流批一体语义表达能力,即用户可以写一套 SQL,从而同时用在实时和离线两个场景,从而得到全增量一体化的数据开发体验。

在这里插入图片描述
新功能

这几年,Flink 社区在国内外技术会议上不断宣传推广,让 Flink 得到大量采用,各种应用场景也变得更加广泛,生态快速发展。

Flink 不再仅仅是流计算引擎,而是让绝大部分数据分析师都可以利用 Flink批流一体 API 搭建实时数据集成、分析、风控和在线机器学习场景解决方案。

麦聪软件,全球领先的DaaS厂商,帮助企业构建开放体系湖仓架构,最大化支持原有数据库/数据仓库/数据湖/中台等。目前的400多家企业级客户中,30多家为世界500强集团客户。产品主要拥有统一数据管理和统一数据服务两大模块,包含构建数据资产目录,元数据管理,数据开发、数据质量、数据服务相关功能。

04总结

综上,Flink的技术是牛的,未来能发展的更好,但如果一个很好的计算引擎,没办法做到公有云厂商中立,那么在云计算市场的商业化就会难一点。

在这里插入图片描述
Databricks年度融资及估值变化

自从阿里巴巴买了Flink以后,也许最开心的就是Databricks。(19年阿里收购Flink,Databricks估值27.5亿美元,2021年其估值达到380亿美元)

大家怎么看,会建议自己的公司用Flink吗?

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
FlinkSpark都是流行的开源大数据处理框架,它们都可以处理大规模数据和实时数据。下面对FlinkSpark进行比较: 1. 处理模型:Spark的处理模型主要是基于RDD的批处理模型,而Flink则提供了数据流和数据集两种处理模型,可以处理实时数据和批处理数据。 2. 内存管理:Spark使用了内存管理技术来提高处理性能,但是在内存使用高峰期可能会导致OOM问题。Flink采用了基于JVM的内存管理技术,并且提供了自动内存管理机制,可以更好地控制内存使用。 3. 网络IO:Flink的网络IO采用了基于堆外内存的技术,可以提高网络IO性能。而Spark的网络IO则是基于Java NIO的,性能相对较低。 4. 系统架构:Flink采用了基于异步线程池的架构,可以更好地控制并发度和资源利用率。而Spark则采用了基于Master/Worker的架构,较难控制资源利用率和并发度。 5. 实时处理:Flink在实时数据处理方面具有更好的性能和吞吐量,可以处理毫秒级别的数据流。Spark则主要用于批处理,对实时数据处理的支持相对较弱。 6. 生态系统:Spark的生态系统非常丰富,包括Spark SQL、Spark Streaming、MLlib等。Flink的生态系统也在不断壮大,包括Flink SQL、Flink ML等。 总体来说,FlinkSpark都是非常优秀的大数据处理框架,它们各自具有优势和特点,在不同应用场景下有不同的表现。需要根据具体需求来选择合适的框架。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

麦聪聊数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值