对比MapReduce 流处理框架没有所谓的查询层

Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始人兼首席数据科学家。在其个人博客上简述了主流SPF(Stream Processing Framework)与MapReduce的区别 —— 并没有查询层。

以下为译文:

当着手实时大数据时,SPF不失为MapReduce很好的替代。取代对数据进行批处理,它们在数据出现时就会进行处理;如果你处理的是事件流,使用SPF显然会比MapReduce来的合理。而类似Storm(Twitter)和S4(Yahoo!)这样的框架,显然更适合扩展类似(流处理)的计算。类似于MapReduce作业,你只要指定小的工作线程,然后这些线程会被自动的监视和部署从而提供稳健的扩展性。

所以开始你会觉得“SPF是基于MapReduce的事件版本”,然而这里存在着显著的差别:在流处理中是没有查询层的(最少在Storm和S4中是没有的)。

查询层,你可以通过指令查询出你想要的结果;然而就流处理来说,意味着指令会一直运行,因为你处理的是一个随时都有新时间加入的事件流。

举个例子,着眼随处可见的“单词计数用例”,络绎不绝的导入句子(比如说,Tweet),那么你该如何查询出在一个指定的时间某个指定单词的个数。

答案可能与大部分人所想的不同:没有任何方法可以计算出结果(至少在现有的SPF中)。原因是:每个线程都会被分配数据流的一部分,然而却没有方法去访问这些信息。取而代之的是:结果只能定期的输出,不管是到屏幕或者是持久化储存。

不错,这只是一个比较业余的例子;然而这同样意味着现实中的应用程序,你需要一些数据库后端做结果的储存。取决于你处理的数据量和你所做的聚合程度(或者是不做),这同样意味着你的持久化数据库MySQL可能满足不了流处理集群。

在MapReduce中也同样如此,对数据进行一些定期的修改,而区别在于MapReduce需要做两倍流处理额外后端的储存方案。

Mikio L. Braun认为以下的几个环境适合流处理:

  • 针对高频度的事件流
  • 每个独立的事件都需要处理高复杂度的分析
  • 高聚合度,以至于数据的体积会大量的减少
而在以下的情况可能就不会很适用:

  • 每个时间你都需要做许多的持久层修改
  • 在分析进行的同时,可能会去做某些结果的查询

显然在IT领域没有通吃的算法及框架,把握自己的程序及数据类型,为其选择合适的分析工具才是王道。

更多阅读:

Mikio L. Braun上一篇文章:那些年Google公开的大数据领域论文

原文链接: Stream Processing has no Query Layer (编译/仲浩 王旭东/审校)

欢迎 @CSDN云计算 微博参与讨论,了解更多云信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YARN框架对比MapReduce1.0的改进 随着大数据时代的到来,大数据处理框架也在不断地发展和完善。MapReduce1.0曾经是Hadoop生态圈中最重要的组件之一,但是它存在着一些局限性。为了解决这些问题,Hadoop社区开发了YARN框架,它可以更好地支持多种应用程序,并且更加灵活和可扩展。 下面是YARN框架相对于MapReduce1.0的改进: 1. 更好的资源管理:MapReduce1.0将资源管理和作业调度紧密耦合在一起,这意味着只能运行MapReduce作业。而YARN框架采用了更加灵活的资源管理方式,可以支持多种应用程序,包括Hadoop、Spark、Storm等等。 2. 更好的作业调度:YARN框架采用了分布式作业调度器,可以更加灵活地调度作业。这使得作业的启动和停止更加快速,而且更加容易实现资源共享和作业排队。 3. 更好的容错性:MapReduce1.0的容错性有限,如果某个节点出现故障,整个作业都会失败。而YARN框架采用了更加可靠的容错机制,可以自动重启失败的任务,并且可以在多个节点之间重新分配任务,保证作业的顺利运行。 4. 更好的可扩展性:MapReduce1.0的可扩展性有限,只能通过增加更多的节点来扩展。而YARN框架采用了更加分布式的架构,可以更加容易地扩展,支持更多的节点和更大规模的数据处理。 总的来说,YARN框架相对于MapReduce1.0的改进是非常显著的。它提供了更加灵活、可扩展和可靠的资源管理、作业调度和容错机制。这使得它成为了大数据处理框架中最重要的组件之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值