Storm与Spark Streaming横向对比

最新推荐文章于 2020-10-27 20:13:08 发布

end

最新推荐文章于 2020-10-27 20:13:08 发布

阅读量926

点赞数 1

分类专栏： storm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/endlu/article/details/52469182

版权

storm 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文对比了Storm和Spark Streaming在处理模型、延迟、容错与数据保证、实现与编程API、产品支持及Hadoop集成等方面的差异。Storm提供秒级延迟但可能有重复数据，适合低延迟需求；Spark Streaming则保证每个事件只处理一次，适合有状态计算，且与Spark批处理兼容，便于代码复用。

摘要由CSDN通过智能技术生成

Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。

处理模型,延迟
虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件，而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟，而Spark Streaming则有几秒钟的延迟。

容错、数据保证
在容错数据保证方面的权衡是，Spark Streaming提供了更好的支持容错状态计算。在Storm中,每个单独的记录当它通过系统时必须被跟踪，所以Storm能够至少保证每个记录将被处理一次，但是在从错误中恢复过来时候允许出现重复记录。这意味着可变状态可能不正确地被更新两次。

另一方面，Spark Streaming只需要在批级别进行跟踪处理，因此可以有效地保证每个mini-batch将完全被处理一次，即便一个节点发生故障。(实际上,Storm的 Trident library库也提供了完全一次处理。但是,它依赖于事务更新状态,这比较慢,通常必须由用户实现。)

简而言之,如果你需要秒内的延迟，Storm是一个不错的选择，而且没有数据丢失。如果你需要有状态的计算，而且要完全保证每个事件只被处理一次，Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易，因为它类似于批处理程序(Hadoop)，特别是在你使用批次(尽管是很小的)时。

实现,编程api
Storm初次是由Clojure实现，而 Spark Streaming是使用Scala. 如果你想看看代码还是让自己的定制时需要注意的地方，这样以便发现每个系统是如何工作的。Storm是由BackType和Twitter开发; Spark Streaming是在加州大学伯克利分校开发的。

Storm 有一个Java API, 也支持其他语言，而Spark Streaming是以Scala编程，当然也支持Java

Spark Streaming一个好的特性是其运行在Spark上. 这样你能够你编写批处理的同样代码，这就不需要编写单独的代码来处理实时流数据和历史数据。

产品支持
Storm已经发布几年了，在Twitter从2011年运行至今，同时也有其他公司使用，而Spark Streaming是一个新的项目，它从2013年在Sharethrough有一个项目运行。

Hadoop支持
Storm是一个 Hortonworks Hadoop数据平台上的流解决方案，而Spark Streaming有 MapR的版本还有Cloudera的企业数据平台，Databricks也提供Spark支持。

集群管理集成
尽管两个系统都运行在它们自己的集群上，Storm也能运行在Mesos, 而Spark Streaming能运行在YARN 和 Mesos上。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。