Discretized Streams: Fault-Tolerant Streaming Computation at Scale,SOSP’13

Discretized Streams(D-Streams)为应对大规模数据流的实时处理挑战提供了解决方案。该方法将流计算转化为一系列基于小时间间隔的无状态、确定性批处理计算,以实现快速故障恢复、低延迟和高可扩展性。通过使用弹性分布式数据集(RDD),D-Streams避免了数据复制,通过操作血统图跟踪来恢复数据,并定期检查点保存状态。此外,采用并行恢复策略和推测执行来处理节点故障和延迟任务,确保系统在大规模商品集群中的高效运行。SparkStreaming作为应用实例,利用D-Streams将输入数据流划分为批次并在内存中存储,通过生成Spark作业处理这些批次,从而实现流应用程序的执行。
摘要由CSDN通过智能技术生成

Motivation
Many big-data applications need to process large data streams in near-real time.

  • Site activity statistics
  • Span detection
  • Cluster monitoring

Challenges

  • Stream processing systems must recover from failures and stragglers quickly and efficiently
  • Traditional streaming systems don’t achieve these properties simultaneously

Introduction:Existing streaming systems在这里插入图片描述

  • Based on a continuous operator processing model

  • Two approaches to recovery
    1、Replication
    在这里插入图片描述

2、Upstream backup

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值