什么是 Delta Lake?
Delta Lake 是经过优化的存储层,为 Databricks 上湖屋中的表提供了基础。 Delta Lake 是开源软件,它使用基于文件的事务日志扩展了 Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。 Delta Lake 与 Apache Spark API 完全兼容,并且其设计能够与结构化流式处理紧密集成,让你可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。
Delta Lake 是 Azure Databricks 上所有操作的默认格式。 除非另行指定,否则 Azure Databricks 上的所有表都是 Delta 表。 Databricks 是 Delta Lake 协议的原始开发商,它将持续为开源项目做出积极贡献。 Databricks 平台中的许多优化和产品都建立在 Apache Spark 和 Delta Lake 提供的保证基础之上。 有关 Azure Databricks 优化的信息,请参阅有关 Azure Databricks 的优化建议。
分区
参考链接:
- https://learn.microsoft.com/zh-cn/azure/databricks/tables/partitions#do-small-tables-need-to-be-partitioned
是否需要对小型表进行分区