Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。
本篇文章将从3个部分介绍关于Delta Lake的一些特性:
- Delta Lake的项目背景以及想要解决的问题
- Delta Lake的实现原理
- Live Demo
一、Delta Lake的项目背景以及想要解决的问题
1)背景
相信大家在构建数仓处理数据方面都很有经验,而产业界也耗费了大量的资源来构建相关的系统。
我们发现有半结构化数据、实时数据、批量数据,用户数据等一系列数据存储在各个地方,分别以不同的处理形式为用户提供服务。
那么我们期望的理想的系统是什么样的?
- 更一体化或更加聚焦,让更专业的人干更专业的事情
- 有同时处理流式和批量的能力
- 可以提供推荐服务
- 可以提供报警服务
- 可以帮助用户分析一系列的问题
但现实情况却是:
- 低质量、不可靠的数据导致一体化行进艰难。
- 差