Iceberg 表规范


这是 Iceberg 表格格式的规范,用于在分布式文件系统或键值存储中,将大型、缓慢变化的文件集作为表来管理。

Version 1: 分析数据表

Iceberg Version 1是当前版本。 它定义了如何使用不可变的文件格式(如 Parquet、 Avro 和 ORC)来管理大型分析表。

Version 2:行级删除

Iceberg 社区目前正在开发支持编码行级删除的 Iceberg 格式的第2版。V2规范是不完整的,可能会改变,直到它被完成和采用。 这个文档包括暂时的 v2格式要求,但是目前没有与未完成的 v2规范的兼容性保证。
版本2的目标是提供一种对行级删除进行编码的方法。 此更新可用于在不重写文件的情况下删除delete或更新update不可变数据文件中的单个行。

Goals

  • 快照隔离 – 读操作将与并发写操作隔离,并始终使用表数据的已提交快照。写操作将支持在单个操作中删除和添加文件,并且永远不会部分可见。
    Readers 无法获得锁。
  • 速度–操作将使用 O(1)的时间复杂度来远程调用规划扫描文件,而不是O (n) ,其中 n 随表的大小增长,如分区或文件的数量。
  • 规模– 作业计划将主要由客户端处理,而不是在中央元数据存储上出现瓶颈。 元数据将包括基于成本的优化所需的信息。
  • 进化– 表将支持完整的模式和分区规范演进。 架构进化支持安全的列添加、删除、重新排序和重命名,包括在嵌套结构中。
  • 可靠的类型 – 表将为一组核心类型提供定义良好且可靠的支持。
  • 储存间隔 – 分区将是表配置。 读操作将使用数据值上的谓词而不是分区值来计划。表将支持不断发展的分区schema。
  • 格式–基础数据文
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值