自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xleesf

https://github.com/leesf/hudi-resources

  • 博客(55)
  • 收藏
  • 关注

原创 数据湖框架选型很纠结?一文了解Apache Hudi核心优势

英文原文:https://hudi.apache.org/blog/hudi-indexing-mechanisms/Apache Hudi使用索引来定位更删操作所在的文件组。对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写。对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量。具体地,一个给定的基文件只需要和其所包含的记录的更新合并。相比之下,没有索引的设计(比如Apache Hive ACID),可能会.

2021-01-01 10:28:16 479

原创 印度最大在线食品杂货公司Grofers的数据湖建设之路

1. 起源作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用。但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永远无法确定哪个数据源是正确的并且可用于分析,因此每个步骤都会咨询数据平台团队,数据平台团队原本应该提供尽可能独立地做出基于数据的正确决策而又不减慢速度的工具。现代数据平台会从许多不同的、不互连的,不同系统中收集数据,并且很容易出现数据收集问题,例如重复记录,错过更新等。为解决这些问题,我们对数据平台进行了深入

2020-10-26 18:52:32 191 1

原创 Apache Hudi助力nClouds加速数据交付

1. 概述在nClouds上,当客户的业务决策取决于对近实时数据的访问时,客户通常会向我们寻求有关数据和分析平台的解决方案。但随着每天创建和收集的数据量都在增加,这使得使用传统技术进行数据分析成为一项艰巨的任务。本文我们将讨论nClouds如何帮助您应对数据延迟,数据质量,系统可靠性和数据隐私合规性方面的挑战。Amazon EMR上的Apache Hudi是需要构建增量数据管道、大规模近实时处理数据的理想解决方案。本篇文章将在Amazon EMR的Apache Hudi上进行原型验证。nClouds

2020-10-21 09:31:57 230

原创 划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了。现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apache Hudi/Delta Lake表数据。Amazon Redshift Spectrum作为Amazon Redshift的特性可以允许您直接从Redshift集群中查询S3数据湖,而无需先将数据加载到其中,从而最大限度地缩短了洞察数据价值时间。Redshift Spectrum支持Lake house

2020-09-27 20:30:59 367

原创 Apache Hudi 0.6.0版本重磅发布

1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512)二进制Jar包:nexus2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南;0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略,为进行平稳迁移,会在hoodie.properties文件中配置一个新属性hoodie.table.version;无论何时使用Hudi表新版本,如1(从0.6.0以

2020-08-26 09:07:40 295

原创 详解Apache Hudi如何配置各种类型分区

1. 引入Apache Hudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区。2. 分区处理为说明Hudi对不同分区类型的处理,假定写入Hudi的Schema如下{ "type" : "record", "name" : "HudiSchemaDemo", "namespace" : "hoodie.HudiSchemaDemo", "fields" : [ { "n

2020-08-18 09:53:07 2158

原创 Apache Hudi + AWS S3 + Athena实战

Apache Hudi在阿里巴巴集团、EMIS Health,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由Amazon AWS EMR和Google云平台支持,最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力,本博客将测试Athena查询S3上Hudi格式数据集。1. 准备-Spark环境,S3 Bucket需要使用Spark写入Hudi数据,登陆Amazon EMR并启动spark-shell:$ export SCALA

2020-08-03 19:27:17 601

原创 使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等。什么是数据湖?数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。你可以存储原始数据,而不需要先转化为结构化的数据,基于数据湖之上可以运行多种类型的分析,如dashboard、大数据处理的可视化、实时分析、机器学习等。接着看看对于构建P

2020-06-27 21:18:39 645

原创 Apache Hudi:云数据湖解决方案

欢迎关注微信公众号:ApacheHudi1. 引入开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据湖项目,可在与Apache Hadoop兼容的云存储系统(包括Amazon S3、Aliyun OSS)上进行流数据处理。该项目最初于2016年在Uber开发,于201

2020-06-21 13:07:38 510

原创 基于Apache Hudi 的CDC数据入湖

作者:李少锋文章目录:一、CDC背景介绍二、CDC数据入湖三、Hudi核心设计四、Hudi未来规划1. CDC背景介绍首先我们介绍什么是CDC?CDC的全称是Change data Capture,即变更数据捕获,它是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。它的应用比较广,可以做一些数据同步、数据分发和数据采集,还可以做ETL,今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。对于CDC,业界主要有两种类型:基于查询,客户端会通过

2021-10-24 20:23:04 423

原创 Apache Hudi内核之文件标记机制深入解析

1. 摘要Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。 在本博客中,我们将深入探讨现有直接标记文件机制的设计,并解释了其在云存储(如 AWS S3、Aliyun OSS)上针对非常大批量写入的性能问题。 并且演示如何通过引入基于时间轴服务器的标记来提高写入性能。2. 为何引入Markers机制Hudi中的marker是一个表示存储中存在对应的数据文件的标签,Hudi使用它在故障和回滚场景中自动清理未提交的数据。每个标记条目

2021-09-12 21:52:04 356

原创 Apache Hudi 0.9.0版本重磅发布!更强大的流式数据湖平台

1. 重点特性1.1 Spark SQL支持0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师、分析师等)更容易访问和操作 Hudi 迈出了一大步。 用户现在可以使用 CREATE TABLE....USING HUDI 和 CREATE TABLE .. AS SELECT 语句直接在 Hive 等目录中创建和管理表。 然后用户可以使用 INSERT、UPDATE、MERGE INTO 和 DELETE 语句来操作数据。 此外,INSERT OVERW

2021-09-12 21:49:39 446

原创 字节跳动基于Apache Hudi构建EB级数据湖实践

来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享。接下来将分为场景需求、设计选型、功能支持、性能调优、未来展望五部分介绍Hudi在字节跳动推荐系统中的实践。在推荐系统中,我们在两个场景下使用数据湖我们使用BigTable作为整个系统近线处理的数据存储,这是一个公司自研的组件TBase,提供了BigTable的语义和搜索推荐广告场景下一些需求的抽象,并屏蔽底层存储的差异。为了更好的理解,这里可以把它直接看做一个HBase。在这过程中为了能够服务.

2021-09-12 21:48:32 512

原创 快手基于Apache Hudi的千亿级数据湖实践

演讲者为靳国卫,快手大数据研发专家,负责用户增长数据团队分为3部分介绍Hudi如何解决效率问题,首先是实际应用中遇到的痛点有哪些,业务诉求是什么,然后调研业界的解决方案,为什么选择Hudi来解决痛点问题,然后介绍在实践中如何使用Hud解决业务问题,并形成体系化的解决方案。业务痛点包括数据调度、数据同步和修复回刷三大类痛点,包括数据全量回刷效率低。三个场景通用来看,从业务诉求就是希望更快看到结果,像业务库那样数据准备好了就可以使用,由于业务库引擎限制,又希望使用大数据技术做分析,总的来看可以结合.

2021-09-12 21:43:12 428

原创 触宝科技基于Apache Hudi的流批一体架构实践

欢迎关注微信公众号:ApacheHudi1. 前言当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。2. 模型特征架构的演进2.1 第一代架构广告业务发展初期,为了提升策略迭代效率,整理出一套通用的特征生产框架,该框架由三部分组成:特征统计、特征推送和特征获取模型训练。如下图所示:客户端以及服务端数据先通过统一服务Sink

2021-07-04 22:36:27 269 5

原创 Apache Hudi在Hopworks机器学习的应用

欢迎关注微信公众号:ApacheHudiHopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜的特征值。企业机器学习模型为指导产品用户交互提供了价值价值。通常这些 ML 模型应用于整个实体数据库,例如由唯一主键标识用户。离线应用程序的一个示例是预测客户终身价值(Customer Lifetime Value),其中可以定期(每晚、每周)分批预测

2021-07-04 11:39:34 221 1

原创 通过Z-Order技术加速Hudi大规模数据集分析方案

欢迎微信公众号:ApacheHudi1. 背景多维分析是大数据分析的一个典型场景,这种分析一般带有过滤条件。对于此类查询,尤其是在高基字段的过滤查询,理论上只我们对原始数据做合理的布局,结合相关过滤条件,查询引擎可以过滤掉大量不相关数据,只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序,这样生成的每个文件相关字段的min-max值是不存在交叉的,查询引擎下推过滤条件给数据源结合每个文件的min-max统计信息,即可过滤掉大量不相干数据。 上述技术即我们通常所说的data clusterin

2021-06-20 20:16:32 433

原创 一文彻底理解Apache Hudi的清理服务

欢迎关注微信公众号:ApacheHudiApache Hudi提供了MVCC并发模型,保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本,此外还将讨论用户可使用的清理机制,以了解如何维护所需数量的旧文件版本,以使长时间运行的读取端不会失败。1. 回收空间以控制存储成本Hudi 提供不同的表管理服务来管理数据湖上表的数据,其中一项服务称为Cleaner(清理服务)。 随着用户向表中写入更多数据,对于每次更新,Hudi会生成一个新版本的数据文件用于保存更新后的记录(C

2021-06-15 22:44:26 700

原创 对话Apache Hudi VP,洞悉数据湖的过去现在和未来

欢迎关注微信公众号:ApacheHudiApache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。本期SOFTWARE DAILY我们有幸采访到了Apache Hudi项目VP Vinoth Chandar。Vinoth是Uber Hudi项目的创建者,他继续在Apache Software Founda

2021-06-15 22:42:34 115 1

原创 KIP-5: Apache Kylin深度集成Apache Hudi

Q1. What are you trying to do? Articulate your objectives using absolutely no jargon.Q2. What problem is this proposal NOT designed to solve?Q3. How is it done today, and what are the limits of current practice?Q4. What is new in your approach and why .

2021-05-23 21:44:14 140

原创 使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?

1. 动机Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化能力。Delta Lake,Apache Hudi和Apache Iceberg是三种构建Lakehouse的技术。与此同时,Pulsar提供了一系列特性:包括分层存储、流式卸载、列式卸载等,让其成为一个可以统

2021-05-09 22:40:27 244 1

原创 Apache Hudi集成Spark SQL抢先体验

1. 摘要社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hudi表的DDL/DML操作,下面就来看看如何使用Spark SQL操作Hudi表。2. 环境准备首先需要将PR拉取到本地打包,生成SPARK_BUNDLE_JAR(hudi-spark-bundle_2.11-0.9.0-SNAPSHOT.jar)包2.1 启动spark-sql在配置完sp

2021-05-09 22:38:27 679 1

原创 提升50%!Presto如何提升Hudi表查询性能?

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talktalk主要分为如下几个部分演讲者背景介绍Apache Hudi介绍数据湖演进和用例说明Hudi Clustering介绍Clustering性能和使用未来工作该talk的演讲者为Nishith Agarwal和Satish Kotha,其中Nishith Agarwal是Apache Hudi PMC成员,在Uber任职团队Leader,Satish Kotha是Apache Hudi Committ

2021-05-09 22:33:46 890 1

原创 致广大数据湖用户的一封信

随着数据湖概念的流行,涌现了很多关于Apache Hudi的文章,但很多文章在阐述时仅仅将Hudi当做一种表格式,这引发了社区的思考,思考Hudi的愿景到底是什么,并且在Hudi社区发起了讨论重新审视Hudi。我们更倾向于将Hudi当做一个数据湖平台,包含表格式,还包含支持事务的存储层。并重新设计了Hudi的生态设计图至此Hudi已经提供了如下能力:表格式:存储表Schema;Metadata表,存储文件列表,未来该表还会扩展存储列信息及其他助于写入和查询优化的信息,更多详情请参考 RFC-27

2021-04-25 11:20:45 78

原创 Apache Hudi 0.8.0版本重磅发布

欢迎关注微信公众号:ApacheHudi1. 重点特性1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline;支持Flink写入MOR表;Flink批量读取COW和MOR表;流式读取MOR表;同时支持了Hudi作为Source和Sink的Flink SQL Connector,在Hudi 0.8.0版本发布后,用户可以使用Flink1.11+体验上述所有

2021-04-10 17:07:12 243

原创 一文彻底掌握Apache Hudi的主键和分区配置

欢迎关注微信公众号:ApacheHudi1. 介绍Hudi中的每个记录都由HoodieKey唯一标识,HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区,并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性,因此在不同分区之间可能存在具有相同记录键的记录。应该明智地选择分区字段,因为它可能影响摄取和查询延迟。2. KeyGenerators(键生成器)Hudi提供了一些开箱即用的键生成器,用户可以基于

2021-04-10 17:06:17 2580

原创 干货!Apache Hudi如何智能处理小文件问题

欢迎关注微信公众号:ApacheHudi1. 引入Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据,如果不进行处理,会产生很多小文件。2. 写入时 vs 写入后一种常见的处理方法先写入很多小文件,然后再合并成大文件以解决由小文件引起的系统扩展性问题,但由于暴露太多小文件可能导致不能保证查询的SLA。实际上对

2021-04-10 17:04:31 871

原创 重磅!解锁Apache Flink读写Apache Hudi新姿势

欢迎关注微信公众号:ApacheHudi1. 背景Apache Hudi 是目前最流行的数据湖解决方案之一,Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE(UPDATE/DELETE)场景;AWS 在 EMR 服务中 预安装 了 Apache Hudi,为用户提供高效的 record-level updates/deletes 和高效的数据查询管理;Uber 已经稳定运行 Apache Hudi 服务 4 年多,提供了 低延迟的数据库同步和高效率的查询。自 201

2021-04-10 17:02:17 1164

原创 Apache Hudi核心概念一网打尽

1. 场景https://hudi.apache.org/docs/use_cases.html近实时写入减少碎片化工具的使用CDC 增量导入 RDBMS 数据限制小文件的大小和数量近实时分析相对于秒级存储 (Druid, OpenTSDB) ,节省资源提供分钟级别时效性,支撑更高效的查询Hudi 作为 lib,非常轻量增量 pipeline区分 arrivetime 和 event time 处理延迟数据更短的调度 interval 减少端到端延迟 (小时 -&gt

2021-04-10 17:00:24 248

原创 Apache Hudi:CDC的黄金搭档

1. 介绍Apache Hudi是一个开源的数据湖框架,旨在简化增量数据处理和数据管道开发。借助Hudi可以在Amazon S3、Aliyun OSS数据湖中进行记录级别管理插入/更新/删除。AWS EMR集群已支持Hudi组件,并且可以与AWS Glue Data Catalog无缝集成。此特性可使得直接在Athena或Redshift Spectrum查询Hudi数据集。对于企业使用AWS云的一种常见数据流如图1所示,即将数据实时复制到S3。本篇文章将介绍如何使用Oracle GoldenGat

2021-04-10 16:56:27 179

原创 使用Apache Hudi构建下一代Lakehouse

1. 概括本文介绍了一种称为Data Lakehouse的现代数据架构范例。Data Lakehouse相比于传统的数据湖具有很多优势,本文说明了如何通过现代化数据平台并使用Lakehouse架构来应对客户端所面临的可扩展性、数据质量和延迟方面的挑战。本文介绍了使用Apache Hudi实现Data Lakehouse的基本知识和步骤。2. 前言过去十年随着物联网、云应用、社交媒体和机器学习的发展,公司收集的数据量呈指数级增长,同时对高质量数据的需求从几天和几小时的频率变为几分钟甚至几秒钟的时间。数

2021-04-10 16:53:22 367

原创 Apache Hudi与Apache Flink更好地集成!最新方案了解下

RFC - 24: Hoodie Flink Writer Proposal在Hudi 0.7.0版本中支持了Flink写Hudi的第一个版本,第一个版本中存在一些瓶颈,该RFC由阿里Blink团队的Danny提出,以解决第一个版本中的一些瓶颈,大部分代码已经合入master主干分支。1. 现有架构现有Flink写Hudi架构如下现有的架构存在如下瓶颈InstantGeneratorOperator并发度为1,将限制高吞吐的消费,因为所有的split都将会打到一个线程内,网络IO会有很大压力;

2021-03-07 17:37:19 578 2

原创 查询时间下降60%!Apache Hudi数据布局黑科技了解下

1. 背景Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频繁的数据放在一起时,查询引擎的性能会更好,大多数系统都倾向于支持独立的优化来提高性能,以解决未优化的数据布局的限制。本博客介绍了一种称为Clustering[RFC-19]的服务,该服务可重新组织数

2021-03-07 17:25:01 342

原创 Lakehouse: 统一数据仓库和高级分析的新一代开放平台

1. 摘要数仓架构在未来一段时间内会逐渐消亡,会被一种新的Lakehouse架构取代,该架构主要有如下特性基于开放的数据格式,如Parquet;机器学习和数据科学将被作为头等公民支持;提供卓越的性能;Lakehouse可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式不开放和有限场景支持。2. 数据分析平台发展数据仓库将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能(BI),仓库使用写模式(schema-on-write.

2021-01-23 23:02:27 532

原创 通过Apache Hudi和Alluxio建设高性能数据湖

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖。1.T3出行数据湖总览T3出行当前还处于业务扩张期,在构建数据湖之前不同的业务线,会选择不同的存储系统、传输工具以及处理框架,从而出现了严重的数据孤岛使得

2020-12-06 21:01:03 1103

原创 Apache Hudi初学者指南

在深入研究Hudi机制之前,让我们首先了解Hudi正在解决的问题。客户在使用数据湖时通常会问一个问题:当源记录被更新时,如何更新数据湖?这是一个很难解决的问题,因为一旦你写了CSV或Parquet文件,唯一的选择就是重写它们,没有一种简单的机制可以打开这些文件,找到一条记录并用源代码中的最新值更新该记录,当数据湖中有多层数据集时,问题变得更加严重,数据集的输出将作为下次数据集计算的输入。在数据库中用户只需发出一个更新记录命令就可以完成任务了,所以从数据库的思维模式来看很难理解上述限制,为什么不能在数据湖

2020-11-27 23:33:32 329

原创 Amazon EMR上使用Apache Hudi数据湖进行变化数据捕获(CDC)

前一篇文章中我们讨论了如何使用Amazon数据库迁移服务(DMS)无缝地收集CDC数据。https://towardsdatascience.com/data-lake-change-data-capture-cdc-using-amazon-database-migration-service-part-1-capture-b43c3422aad4下面将演示如何处理CDC数据,以便在数据湖中近实时表示数据库的变更,我们将使用Apache Hudi和Amazon EMR来完成此操作。Apachehudi

2020-11-21 20:00:48 521

原创 使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

1. 引入数据湖使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好、更快的决策。Amazon Simple Storage Service(amazon S3)是针对结构化和非结构化数据的高性能对象存储服务,可以用来作为数据湖底层的存储服务。然而许多用例,如从上游关系数据库执行变更数据捕获(CDC)到基于Amazon S3的数据湖,都需要在记录级别处理数据,执行诸如从数据集中插入、更新和删除单条记录的操作需要处理引擎读取所有对象(文件),进行更改,并将整

2020-11-04 09:30:28 993

原创 Apache Hudi与Apache Flink集成

Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。1. 为何要解耦Hudi自诞生至今一直使用Spark作为其数据处理引擎。如果用户想使用Hudi作为其数据湖框架,就必须在其平台技术栈中引入Spark。放在几年前,使用Spark作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为Spark既可以进行批处理也可以使用微批模拟流,流批一体,一套引擎解决流、批问题。然而,近年来

2020-10-14 10:03:44 1089

原创 Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。1. 概述Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,Hudi通过引入upserts、deletes和增量查询等原语将流式能力带入了批处理。这些特性使得统一服务层可提供更快、更新鲜的数据。Hudi表可存储在Hadoop兼容的分布式文件系统或者云上对

2020-09-22 07:48:18 666 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除