使用 Spark 和 Delta Lake 构建近实时数据仓库

本文探讨了在SPARK + AI SUMMIT Europe 2019会议上分享的主题,讲解如何结合Structured Streaming和Delta Lake创建近实时数据仓库。内容涵盖了Structured Streaming的基本概念、Delta Lake的事务日志管理和VACUUM命令,以及如何整合两者实现从MySQL到Delta Lake的批处理和实时数据处理。还讨论了实时流处理的挑战,如小文件问题、数据延迟和Watermark的使用。
摘要由CSDN通过智能技术生成

本文来自于2019年10月15日-17日荷兰首都阿姆斯特丹举行的 SPARK + AI SUMMIT Europe 2019 会议,议题名为《Near Real Time Data Warehousing with Apache Spark and Delta Lake》,分享者 Jasper Groot。

本文 PPT 请关注过往记忆大数据微信公众号,并回复 data_warehouse 关键字获取。本分享配套视频:

好了,我们进入正文吧。

640?wx_fmt=png

本分享主要包括三部分

  • Structed Streaming

  • Delta Lake

  • 数据仓库

640?wx_fmt=png

Structed Streaming 从 Spark 2.0 开始引入,其 API 和 DataFrame 的 API 类似。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值