数据湖
文章平均质量分 93
介绍数据湖相关的开源软件和设计理念
一 铭
公众号:大数据架构师修行之路
展开
-
如何选择: 数据仓库(Data Warehouse),数据湖(Data Lake),数据湖仓(Data Lakehouse)
databricks公司推出delta lake后,又推出了Data Lakehouse。该产品结合了数据仓库和数据湖的优势。本文介绍了数据仓库,数据库,数据湖仓的特点和使用场景,避免在使用时产生混淆。原创 2023-03-12 10:17:54 · 1647 阅读 · 0 评论 -
使用Structured Streaming和Delta Lake构建实时数仓(入门)
Delta Lake的批流一体化设计,并且和HDFS天然的兼容,让他具有构建实时数仓的能力。本文介绍通过spark的Struct Streaming结合Delta Lake来构建基本的实时数仓。基本结构# 通过struct streaming来读取数据sdf = spark.readStream.format("")# 操作数据sdf2 = sdf.groupBy.count()# 把数据保存到delta表中sdf2 = writeStream .format("delta")原创 2020-11-14 16:32:04 · 922 阅读 · 0 评论 -
Delta Lake-深入理解表结构和结构演变
概述数据,就像我们的经验一样,总是在不断发展和积累。为了更上步伐,我们的表结构必须适应新的数据,其中包括一些新的维度-一种新的方式来查看我们以前没有概念的事物。这些心理模型与表的结构没有什么不同,它们定义了我们如何对新信息进行分类和处理。这将我们带到表结构管理。随着业务问题和需求随着时间的推移发展,数据的结构也随之变化。使用Delta Lake,随着数据的变化,合并新维度变得容易。用户可以访问...翻译 2019-12-23 13:50:08 · 878 阅读 · 0 评论 -
DeltaLake介绍
概述DeltaLake是DataBricks的一个开源项目,它是带ACID的开源存储层,可为数据湖(data lake)带来可靠性。它和Spark的API完全兼容。总体架构图DeltaLake的关键特点和优势ACID事务(ACID Transactions)Data lakes(数据湖)通常具有多个数据管道并发读取和写入数据,并且由于缺少事务,数据工程师必须经过繁琐的过程才能确保数据完...原创 2019-11-30 15:21:42 · 2703 阅读 · 0 评论