Spark学习日志4

本文总结了Spark Stream的学习要点,包括DStream作为流数据处理的基础,通过StreamContext创建处理流数据,使用微批次架构进行计算。重点讨论了DStream的无状态和有状态转化操作,如map、reduceByKey、window等,特别是window函数在窗口计数和规约中的应用。此外,还介绍了如何设置检查点实现高可用性,确保在driver故障时能恢复计算。
摘要由CSDN通过智能技术生成

Spark Stream学习总结:

1. Spark Stream 基于DStream,离散化数据流来处理流数据。相当于RDD对于Spark而言。

DStream本质上是有一串时间上离散的RDD组成。

2. 要处理流数据,首先要创建一个StreamContext, 而StreamContext在底层会创建出SparkContext,以下例子是创建一个streamContext,其中第二个参数指定了多少时间处理一次新数据的时间间隔,并用socketTextStream方法监听本地7777端口的数据流,将接收到的数据流转化为Dstream

val ssc = newe StreamContext(conf, Seconds(1))
val = lines = ssc.socketTextStream("localhost", 7777)
val errorLines = lines.filter(_.contains("error"))
errrorLines.print()
scc.start() //启动流计算环境
scc.awaitTermination()// 执行会在另一个进程里完成,所以要等待完成

3. Spark Stream 架构:

Spark Streaming 使用微批次架构,将流计算当做一系列连续的小规模批处理来对待。通过将一段时间上的流数据,进行相等时间间隔的分割,形成一串离散的数据批次。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值