Spark学习笔记(28)深入理解Spark 2.x中的Structured Streaming

本期内容:
1. 新型的Spark Streaming思维
2. Structured Streaming内幕

Spark 2.0 仍有bug,不适合于生成环境。只用于测试。
Spark 2.X提出了continuous application(连续的应用程序)的概念,非常重大。
如图例所示,数据通过Kafka流进来,经过ETL,
SS把数据看成一张表。一张没有边际的表、
Eventtime,事件触发器,以后再展开来分析。通过JDBC访问数据。
多个query并行运行。
官方说2.0的正式版本并没有在线机器学习功能了。

快速的、容错的、exactly-once,有状态的流处理。不用清楚底层的流是怎么回事。



delta input: 增量更新。有更新的部分时,才更新。

从物理级别看的内容:

StructureStreaming基于DataSet、DataFrame,没有涉及DStream了。没有数据收集过来再处理这样的概念,数据就一直在了。

上例中将两个dataset进行join操作,更符合RDD的API,不需要foreachRDD后门了。
API级别的很大优势。


默认情况下,DataSet、DataFrame是static bounded data,流处理是streaming unbounded data。API把两者融合了。

可以认为Planner是一个翻译器或路由器,基于DataFrame和DataSet代码来决定是否走Spark SQL的UnResult、Result Logic Plan、Optimized Logic Plan等,编码者不需要关心这些东西了。
Spark会走向完全实时的时代。所有的机器学习、图计算都应该在流数据上进行计算。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值