自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Ververica的博客

Apache Flink 官方运营账号

  • 博客(746)
  • 收藏
  • 关注

原创 玳数科技集成 Flink CDC 3.0 的实践

本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。

2024-07-19 10:47:34 985

转载 参与开源大数据Workshop·杭州站,共探企业湖仓演进实践

随着数据管理技术的不断发展,湖仓架构(Lakehouse)目前在业界已得到越来越多的使用。Lakehouse 是由 Data Warehouse(数仓)和 Data Lake(数据湖)这两种数据架构的融合,同时兼具二者的优势而形成自己独特的优点。基于 Lakehouse,我们不仅可以对结构化的数据,也可以对非结构化数据或半结构化数据进行统一存储。同时,基于 Lakehouse 开放的数据架构优势,...

2024-07-19 09:35:30 10

原创 Apache Paimon 在蚂蚁的应用

Paimon 是一种面向流而设计的实时数据湖格式。主要有以下特点:支持高效的实时更新,是基于 LSM Tree 结构,整个流程基于 Append + Compaction 模型。LSM Tree是业界经过很多DB系统采纳的一种存储结构,写入和更新的吞吐可以得到较好保障。Paimon 也支持多种不同的 Changelog Producer,Changelog 类似于数据库里面的Binglog,是流式增量计算的核心。

2024-07-17 16:51:06 1058

原创 Flink CDC:基于 Apache Flink 的流式数据集成框架

Flink CDC 最早的发展就始于 GitHub 开源社区。自 2020 年 7 月开始,项目在 Ververica 公司的 GitHub 仓库下以 Apache 2.0 协议开放源代码。并提供了从主流 MySQL 和 PG SQL 数据库中捕获变化数据的能力。2.0 版本引入了运行更高效、更稳定、支持故障恢复的增量快照框架,并且丰富了源数据库支持范围,能够从 Oracle、MongoDB 实时抽取数据。

2024-07-12 14:44:15 813

原创 Flink+Paimon在阿里云大数据云原生运维数仓的实践

目前 Flink+Paimon 实时数据湖的方案已经比较成熟,使用成本不高,相关的生态也比较完善,在低成本和低延迟的要求下,这个方案还是非常好的选择。如果对成本没太高的要求,Flink+Hologres 在延迟方面会有些优势。参考文件:《Flink+Paimon构建流式数据湖仓》《Paimon外部表》《当流计算邂逅数据湖:Paimon 的前生今世》

2024-07-10 15:25:38 1310

原创 【邀请函】相约CommunityOverCode Asia 2024,共探Flink、Paimon、Celeborn开源新境界!

邀您相约CommunityOverCode Asia 2024,共探Flink、Paimon、Celeborn开源新境界!

2024-07-05 15:09:48 806

原创 探索 Apache Paimon 在阿里智能引擎的应用场景

本文整理自Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家王伟骏(鸿历)老师在 5月16日 Streaming Lakehouse Meetup · Online 上的分享。

2024-07-03 16:37:52 1250

转载 DataFunCon 2024·北京站|Apache Paimon 实时湖仓存储底座

随着 2023 年“ 百模大战 ”的逐渐退烧,我们迎来了 2024 年大模型应用落地的关键突破阶段。在这个被大模型与大数据双核驱动的新时代,企业的各项运营从产品研发到营销再到用户服务等环节正在经历前所未有的深刻变革。为了更好地探讨和展望大数据与大模型的融合发展,我们诚邀您参加 7 月 5 至 7 月 6 日在北京丽亭华苑酒店举办的 DataFunCon 2024·北京站大会,深度了解“大数据·大模...

2024-06-28 12:01:10 237

原创 Paimon 在汽车之家的业务实践

本文分享自汽车之家的王刚、范文、李乾⽼师。介绍了汽车之家基于 Paimon 的一些实践,和一些背景。

2024-06-27 16:50:02 811

原创 贝壳找房基于Flink+Paimon进行全量数据实时分组排序的实践

本文投稿自贝壳家装数仓团队,在结合家装业务场景下所探索出的一种基于 Flink+Paimon 的排序方案。这种方案可以在实时环境对全量数据进行准确的分组排序,同时减少对内存资源的消耗。

2024-06-25 16:45:58 2171

原创 Apache Paimon统一大数据湖存储底座

本文整理自 Apache Paimon PMC Chair 李劲松(之信)老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享,主要分享 Apache Paimon 相关的演进、目标及应用。

2024-06-19 13:28:49 958

原创 Flink 流批一体场景应用及落地情况

本文由阿里云 Flink 团队苏轩楠老师撰写,旨在介绍 Flink 流批一体在几个常见场景下的应用。

2024-06-14 18:05:46 935

原创 湖仓一体全面开启实时化时代

本文整理自阿里云开源大数据平台负责人王峰(莫问)老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享,主要介绍在新一代湖仓架构上如何进行实时化大数据分析。

2024-06-13 13:27:25 812 1

原创 Flink⼤状态作业调优实践指南:状态报错与启停慢篇

在上中下篇章中,我们深入探讨了Apache Flink中的状态管理机制,以及当一个作业持有大状态时在阿里云实时计算Flink版中的如何进行问题诊断和优化。Flink的状态管理是一个复杂而关键的领域,涉及到作业的性能、稳定性和资源利用等多个方面。通过对这些机制分析和优化策略的深入理解和正确应用,结合阿里云Flink提供的产品能力,希望用户可以有效地优化Flink作业,应对大规模状态作业带来的挑战,实现更高效、更可靠的实时数据处理。

2024-06-07 14:26:39 866

原创 Flink⼤状态作业调优实践指南:Flink SQL 作业篇

本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富,本文中篇内容分享 Flink SQL 作业大状态导致反压的调优原理与方法。

2024-06-05 14:56:24 752

原创 Flink⼤状态作业调优实践指南:Datastream 作业篇

本文整理自俞航翔、陈婧敏、黄鹏程老师所撰写的大状态作业调优实践指南。由于内容丰富,本文分享Datastream 作业篇。

2024-06-04 17:00:03 787

原创 活动预告|6月13日Apache Flink Meetup·香港站

Apache Flink Meetup 的风吹到了香江之畔,Apache Flink 香港 Meetup 来啦!本次活动,我们邀请了来自阿里云的顶尖专家,帮助开发者全面了解 Apache Flink 的流批一体的数据处理能力,流式数据湖的关键特性,全方位解析 Apache Flink 流数据处理和基于 Apache Paimon 的流式湖仓技术架构,让您更好的利用阿里云为业务创造更大价值!

2024-05-31 14:54:28 603

原创 流批一体技术简介

本文由阿里云 Flink 团队苏轩楠老师撰写,旨在向 Flink 用户整体介绍 Flink 流批一体的技术和挑战。

2024-05-30 16:59:52 1017

原创 Apache Flink CDC 3.1.0 发布公告

Apache Flink 社区很高兴地宣布发布 Flink CDC 3.1.0!这是社区在接受 Flink CDC 作为 Apache Flink 的子项目后的首个版本,带来了令人兴奋的新功能

2024-05-24 16:23:23 398

转载 倒计时3天 | 5月16日 Streaming Lakehouse Meetup · Online

倒计时3天!StreamingLakehouseMeetup5月16日|线上为了促进 Apache Paimon 技术的交流和发展,我们将于 5 月 16 日在线举办 Streaming Lakehouse Meetup · Online 。本次活动由阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(花名:之信)作...

2024-05-14 20:02:26 96

转载 官宣|Apache Paimon 0.8.0 发布公告

Apache Paimon PMC 正式发布 Apache Paimon 0.8.0版本。共有 47 人参与了该版本的开发,并完成了 350多条提交。感谢所有贡献者的支持!此版本是 Paimon 毕业成为 Apache 顶级项目后第一个发布,包含了大量新增的功能,此公告也是 Paimon 发布公告中最长的一篇。0101版本综述Paimon 的长期规划是成为统一的湖存储格式,满足时效分钟级大数据...

2024-05-10 20:02:41 428

原创 基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路

本文整理自云粒智慧高级技术专家付大伟在 4 月 20 日的 2024 OceanBase 开发者大会上的分享,讲述了其数据中台在传统数仓技术框架下做的一系列努力后,跨进 FlinkCDC 结合 OceanBase 的实时数仓演进过程。

2024-05-09 16:55:43 1102

原创 活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约!

5月16日StreamingLakehouseMeetup·Online与你相约!

2024-05-08 17:50:01 815

原创 Flink DataStream API 批处理能力演进之路

本文由阿里云 Flink 团队郭伟杰老师撰写,旨在向 Flink Batch 社区用户介绍 Flink DataStream API 批处理能力的演进之路。

2024-04-29 13:05:43 628 2

原创 阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

本⽂整理⾃阿里云智能集团技术专家王柳焮⽼师在 Flink Forward Asia 2023 中平台建设专场的分享。

2024-04-26 10:56:06 3143 1

原创 友盟+|如何通过阿里云Flink+Paimon实现流式湖仓落地方案

友盟+ 以“数据智能,驱动业务增长”为使命,为移动应用开发者和企业提供包括统计分析、性能监测、消息推送、智能认证等一站式解决方案。

2024-04-24 09:45:02 1108 2

原创 官宣|Apache Paimon 毕业成为顶级项目,数据湖步入实时新篇章!

Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

2024-04-18 14:44:48 937

原创 Flink CDC在阿里云DataWorks数据集成应用实践

阿里云 DataWorks 数据集成发展已经超过 10 年,起步于 2011 年的阿里巴巴内部数据平台事业部同步中心。2014 年正式对外提供云服务功能,2019年完成公共云商业化,发布了独享资源组功能。2020年发布了实时同步,支持整库全增量以及资源连通性自助诊断等功能。2023 年初,基于 Flink CDC 重构后的新版引擎功能正式发布上线,具备流批一体、弹性扩缩容等功能特性。

2024-04-16 10:18:18 717

原创 Flink+Paimon+Hologres 构建实时湖仓数据分析

本文整理自阿里云高级专家喻良,在 Flink Forward Asia 2023 主会场的分享。

2024-04-12 14:24:58 365

原创 Flink 流批一体在模型特征场景的使用

本文整理自B站资深开发工程师张杨老师在 Flink Forward Asia 2023 中 AI 特征工程专场的分享。

2024-04-03 13:05:51 2674

原创 阿里云实时计算Flink的产品化思考与实践【下】

本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。

2024-03-29 13:14:52 1266

原创 阿里云实时计算Flink的产品化思考与实践【上】

本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。

2024-03-27 14:48:44 1398

原创 官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

本文整理自阿里云开源大数据平台徐榜江 (雪尽),关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会。

2024-03-21 10:33:24 1368

原创 官宣|Apache Flink 1.19 发布公告

Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。

2024-03-19 10:48:39 1925

原创 如何高效接入 Flink: Connecter / Catalog API 核心设计与社区进展

本文整理自阿里云实时计算团队 Apache Flink Committer 和 PMC Member 任庆盛在 FFA 2023 核心技术专场(二)中的分享。

2024-03-15 09:50:17 1052

原创 新一代实时数据集成框架 Flink CDC 3.0 —— 核心技术架构解析

本文整理自阿里云开源大数据平台吕宴全关于新一代实时数据集成框架 Flink CDC 3.0 的核心技术架构解析。

2024-03-12 11:04:57 1601

原创 基于 Kyuubi 实现分布式 Flink SQL 网关

本文整理自网易互娱资深开发工程师、Apache Kyuubi Committer 林小铂的《基于 Kyuubi 实现分布式 Flink SQL 网关》分享。

2024-03-05 10:11:13 1399

原创 蚂蚁流场景状态演进和优化

本文整理自蚂蚁集团实时计算组技术专家闵文俊在 FFA 2023 核心技术(一)中 的分享,内容关于蚂蚁流场景状态演进和优化的研究。

2024-02-29 10:53:48 877

原创 Flink ML 的新特性解析与应用

本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI 特征工程专场的分享。

2024-02-22 20:00:45 1329

原创 Flink 在蚂蚁实时特征平台的深度应用

本文整理自蚂蚁集团高级技术专家赵亮星云,在 Flink Forward Asia 2023 AI 特征工程专场的分享。

2024-02-21 10:10:38 1827

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除