重磅消息,Databricks 收购了 Apache Iceberg背后公司 Tabular

5a7921ae43dc5a83014c795e40fc5b36.png

旧金山 — 2024年6月4日 — 专注于数据和人工智能的 Databricks 公司今天宣布,已经决定收购由 Ryan Blue、Daniel Weeks 和 Jason Reid 创办的数据管理公司 Tabular。这次收购汇集了 Apache Iceberg™ 和 Linux Foundation Delta Lake 的创始人,这两种开源 lakehouse 格式是目前领先的数据存储格式。Databricks 有意引领数据兼容性的新方向,让各个组织不再需要担心他们的数据是存储在哪种格式中。Databricks 计划与 Delta Lake 和 Iceberg 社区紧密合作,以实现 lakehouse 格式之间的兼容性;短期内,会在 Delta Lake UniForm 中实现,长期来看,会朝着单一、开放和通用的数据互操作性标准发展。Databricks 和 Tabular 将携手共进,共同实现开放 lakehouse 的愿景。

Lakehouse 架构的兴起与格式的不兼容

2020 年,Databricks 首创了 lakehouse  架构,其目的是将传统的数据仓库任务和 AI 任务在一个受管控的数据副本上进行整合。为了达到这个目标,所有的数据都需要以开放的格式存在,这样不同的任务、应用程序和引擎就能共享同一份数据。lakehouse 架构通过让每个人都能方便地访问数据,从而最大化了企业的生产效率。这与专有数据仓库形成了鲜明的对比,在专有数据仓库中,只有专有的 SQL 引擎能够读取、写入或分享数据,而且数据往往需要被复制和导出才能被其他应用程序使用,这就导致了对特定供应商的高度依赖。然而四年后,已有 74% 的企业部署了 lakehouse  架构。

lakehouse  的构建基石是一种开源的数据格式,这种格式使得我们能在对象存储中进行ACID事务。这些格式极大地提升了在数据湖上进行数据操作的可靠性和性能,它们是专门为开源引擎如 Apache Spark™、Trino 和 Presto 所设计的。为了应对这些挑战,Databricks 与 Linux Foundation 合作,共同创立了 Delta Lake 项目。自项目启动以来,Delta Lake 已经吸引了来自各种组织的500多名代码贡献者,全球有超过10,000家公司每天平均处理的数据量超过4EB。

大概在 Delta Lake 诞生的同一时期,Ryan Blue 和 Daniel Weeks 在 Netflix 推出了 Iceberg 项目,并慷慨地将其捐赠给了 Apache 软件基金会。从那以后,Delta Lake 和 Iceberg 逐渐崭露头角,成为湖屋格式的两大开源领军标准。虽然这两种格式都建立在 Apache Parquet 的基础上,且有着相似的目标和设计理念,但由于各自独立的开发进程,导致它们之间存在不兼容的问题。

随着时间的流逝,越来越多的开源和专有引擎开始接纳这些格式。但是,他们往往只采纳其中一个标准,而且更常见的情况是仅仅采纳了这个标准的一部分,这导致企业数据变得碎片化和孤立,从而削弱了 lakehouse  架构的价值。

The Road to Interoperability

为了充分利用湖仓库的优势,公司需要数据互操作性。因此,Databricks 将与 Delta Lake 和 Iceberg 社区紧密合作,以逐步实现各种数据格式的互操作性。这是一项长期的任务,可能需要在这些社区中投入几年的时间才能完成。正因为如此,去年 Databricks 推出了 Delta Lake UniForm。UniForm 表能在 Delta Lake、Iceberg 和 Hudi 之间实现互操作性,并支持 Iceberg 的 restful 目录接口。这样,公司就可以运用他们已经熟悉的分析引擎和工具,对所有数据进行处理。如今,UniForm 已经广泛应用,帮助公司实现了数据兼容性。随着原始 Iceberg 团队的加入,Databricks 将进一步扩大 Delta Lake UniForm 的应用范围和影响力。

"Databricks 是 lakehouse  架构的开创者。过去四年里,全球都接纳了这种结合了数据仓库和数据湖优势的架构,它帮助客户降低了总体拥有成本,提高了开放性,并能更快地推进 AI 项目的实施。然而,lakehouse  模式却在两种最受欢迎的格式,Delta Lake 和 Iceberg 之间产生了分歧。Databricks 和 Tabular 将与开源社区一起努力,随着时间的推移,让这两种格式更接近,增强开放性,减少客户的信息孤岛和操作困难," Databricks 的联合创始人兼首席执行官 Ali Ghodsi 如此表示。"去年,我们推出了 Delta Lake UniForm,旨在实现这两种格式的互通性,我们非常高兴能将开放数据湖屋格式的领军人物聚集在一起,让 UniForm 成为统一各类工作负载数据的最佳选择。"

共同致力于开放

Databricks 和 Tabular 都积极支持开源格式,这是他们共同的历史。这两家公司的创立初衷都是为了将创始人自己开发的开源技术商业化。如今,Databricks 已经成为最大且最成功的独立开源公司,按照收入来看,他们已经向开源项目捐献了高达1200万行的代码。这次收购行动进一步突显了 Databricks 对开放格式和云端开源数据的坚定承诺,他们帮助公司确保对自己的数据有充分的控制权,避免受到由专有供应商所拥有的格式所带来的限制。

“我们创造了Apache Iceberg,旨在解决数据正确性、性能以及可扩展性等核心问题。看到Iceberg和Delta Lake大受欢迎,其背后的推动力主要来自于开放的 lakehouse 已经成为了行业的标准,这让我们感到非常惊喜。随着Tabular的加入,我们决定以开放的 lakehouse 格式为基础,打造最优秀的数据管理平台,这样企业就无需再为选择‘正确’的格式或者被专有数据格式所限制而烦恼了,” Tabular的联合创始人兼首席执行官Ryan Blue如此表示。

想要深入了解 Databricks 和 Tabular 如何携手共进的详情,那就赶快报名参加我们在 6月10日至13日举行的 Data + AI 峰会吧:databricks.com/dataaisummit

拟议收购的详细信息

这个拟议的收购计划要遵守一些常见的交易结束条件,预计会在 Databricks 的第二个财政季度完成。

关于 Tabular 

Tabular 是由 Apache Iceberg 的创始人打造的一个独立的数据平台。Tabular 的出现,解决了数据工程师和数据科学家在应对数据基础设施的不足时所面临的困扰。Tabular 是由曾在 Netflix 工作的 Ryan Blue、Dan Weeks 和 Jason Reid 创办的。其中,Blue 还同时担任 Iceberg PMC 的主席,而 Weeks 是 Iceberg PMC 的一员。

关于 Databricks 

Databricks 是一家专注于数据和人工智能(AI)的公司。全球有超过一万家组织,包括 Block, Comcast, Condé Nast, Rivian, Shell 以及超过 60% 的 Fortune 500 强企业,都在依赖 Databricks 的数据智能平台来管理他们的数据,并利用 AI 技术进行数据分析和应用。Databricks 的总部设在美国旧金山,而且在全球各地都设有办公室。这个公司是由 Lakehouse, Apache Spark™, Delta Lake 和 MLflow 的创始人所创立的。如果你想了解更多关于 Databricks 的信息,可以在 LinkedIn, X 和 Facebook 上关注他们。

原文链接:https://www.databricks.com/company/newsroom/press-releases/databricks-agrees-acquire-tabular-company-founded-original-creators

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值