本文来自于2019年10月15日-17日荷兰首都阿姆斯特丹举行的 SPARK + AI SUMMIT Europe 2019 会议,议题名为《Near Real Time Data Warehousing with Apache Spark and Delta Lake》,分享者 Jasper Groot。
本文 PPT 请关注过往记忆大数据微信公众号,并回复 data_warehouse 关键字获取。本分享配套视频:
好了,我们进入正文吧。
本分享主要包括三部分
Structed Streaming
Delta Lake
数据仓库
Structed Streaming 从 Spark 2.0 开始引入,其 API 和 DataFrame 的 API 类似。