- 博客(844)
- 收藏
- 关注
原创 介绍一下这只小水獭 —— Fluss Logo 背后的故事
开源流存储项目Fluss正式发布专属Logo——一只踏浪前行的水獭。这个设计经过30多版迭代,完美诠释了项目的流动性、适应性和友好性三大核心理念。水獭形象既契合项目名称"河流"的德语含义,又以可爱亲和的形象拉近社区距离。团队还分享了从ChatGPT获取灵感、社区反馈收集等设计过程,并预告了即将推出的周边产品。目前Fluss已向Apache基金会提交孵化提案,有望成为开源社区新成员。
2025-05-30 10:09:02
877
原创 基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥老师在 Flink Forward Asia 2024 流式湖仓论坛的分享。
2025-05-28 13:48:45
1066
原创 Amoro + Flink CDC 数据融合入湖新体验
摘要:本文整理自货拉拉高级大数据开发工程师,Apache Amoro PMC 陈政羽老师,在Flink Forward Asia 2024 数据集成(一)专场的分享。内容分为以下四个部分:01Flink CDC 在货拉拉应用首先讲解 Flink CDC 目前在货拉拉上的应用以及场景。CDC 是上半年开始接入的数据集成方案,现在已经有50多个任务跑在正式生产环境上。我们希望后续建设一个标准化的数据采集平台和数据同步的平台,将后续比较老旧的任务 canal 取消。目前数据量每天都在TB级以上,包括一些订单和司机
2025-05-22 20:02:37
980
原创 Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink 社区正式发布了 Flink CDC 3.4.0 版本,该版本经过4个月的开发,吸引了51位贡献者,完成了259次代码提交,并修复了65个问题。
2025-05-21 14:44:47
1163
原创 Flink x Paimon 在抖音集团生活服务的落地实践
摘要:本文整理自抖音集团数据工程师陆魏老师和流式计算工程冯向宇老师,在Flink Forward Asia 2024 流式湖仓(二)专场的分享。内容分为以下三个部分:Tips:关注「公众号」回复 FFA 2024 查看会后资料~01背景及现状抖音生活服务是抖音集团重要的业务板块,主要通过抖音直播、短视频、团购以及本地同城等流量入口,引导用户进行线上下单支付,并进而引导用户线下消费履约,最终完成线上到线下的引流操作。近些年,抖音生活服务迎来了快速增长,伴随业务增长,生活服务实时数仓技术也迎来关键的技术转变。第
2025-05-15 20:02:48
675
转载 当实时湖仓遇上湖流一体|Flink 邀您一同参与 OceanBase 开发者大会
Fluss 湖流一体架构应运而生,通过流存储与数据湖的深度融合,提供统一 SQL 接口访问热数据与 Paimon 湖仓冷数据,彻底消除开发/运维割裂。Fluss 的插件化多湖支持与多引擎兼容,释放数据湖扩展性,构建从实时交易到全量分析的闭环,为企业提供毫秒级响应、低成本存储与高一致性分析的湖仓一体化底座,成为AI时代数据架构升级的关键选择。为主题,汇聚众多数据库领军者、AI 实践先锋与开发者,共同探讨数据库与 AI 协同创新的技术趋势。在 AI 浪潮席卷全球、Data+AI 深度融合的当下,本届大会以。
2025-05-14 08:01:36
82
转载 直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
阿里云消息队列 Kafka 版与实时计算 Flink 版,100%兼容开源协议,基于阿里云基础设施和云原生架构,具备显著超越开源的能力优势,并通过全托管、免运维 Connector 可以轻松实现数据集成和计算。阿里云消息队列 Kafka 版与实时计算 Flink 版的强强联合,三位阿里云技术专家联袂开讲,为企业提供了一套从数据采集到智能分析的解决方案——零门槛构建分布式实时分析平台,让数据真正"活"起来!🚀 实时计算时代已经来临,让我们一起用 Flink 和 Kafka,开启你的流处理之旅!
2025-05-08 20:01:02
67
原创 网易游戏 Flink 云原生实践
本文整理自网易游戏实时计算&数据湖平台负责人林小铂老师和网易游戏大数据开发工程师陈宇智老师,在Flink Forward Asia 2024 云原生专场的分享。
2025-05-08 17:20:02
1179
原创 中国联通网络资源湖仓一体应用实践
中国联通网络资源中心作为全球规模领先的集约化资源管理平台,承载全国31省域的网络资源数据、骨干网及国际出口网络等百余类异构数据资源,管理规模达百亿级实体实例。其核心业务是通过物理网络数字化映射技术,将光接入网、核心交换设备等物理基础设施转化为高精度数字模型,构建全域网络资源图谱,实现从信息化设备到智能化数字网络的升级。我们采用Flink + Paimon 湖仓一体架构解决以上问题,整体链路如下图。架构主要分为三个部分:全增量数据接入、数据归档、数据压缩合并。
2025-04-29 15:12:59
778
原创 抖音集团电商流量实时数仓建设实践
本文整理自抖音集团电商数据工程师姚遥老师在 Flink Forward Asia 2024 分论坛中的分享。
2025-04-25 18:07:25
1169
1
原创 基于 Flink 的中国电信星海时空数据多引擎实时改造
基于 Flink 的中国电信星海时空数据多引擎实时改造项目,通过对现有系统的架构优化和技术创新,成功解决了业务发展过程中面临的数据膨胀、场景分散和响应时效等问题。关键优化技术的应用提升了系统的性能和效率。未来,随着技术的不断发展和业务的持续拓展,该系统将在更多领域发挥重要作用,为中国电信的数字化转型和智慧城市的建设提供有力支持。Flink 的高性能和低延迟特性使得数据处理效率得到了显著提升,统一资源池的管理方式提高了资源的利用率,自动扩缩容功能则能够根据业务负载动态调整资源配置,确保系统的稳定性和可靠性。
2025-04-22 20:03:05
601
原创 京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬先生在 Flink Forward Asia 2024 论坛中的分享。
2025-04-18 13:42:11
1060
原创 中原银行实时场景企业级解决方案
本文整理自中原银行实时数据开发平台负责人杜威科老师在 Flink Forward Asia 2024 流式湖仓(二)专场中的分享。内容分为以下几个部分:1、需求分析2、解决方案3、场景案例4、现状展望首先,介绍下中原银行业务的发展概况。中原银行成立于 2014 年12 月,是分支机构网点覆盖河南全省的省属法人银行。2017年7月,中原银行在香港联交所主板挂牌上市。中原银行下设18家分行,拥有超过 1.8 万名员工,并设立了 600 余个服务网点,资产规模达 1.3 万亿元。
2025-04-16 11:16:26
1040
原创 Flink Forward Asia 2025 新加坡站议题征集开启|The future of AI is Real-Time
Apache Flink 社区年度技术盛宴——Flink Forward Asia 2025 即将于在新加坡盛大召开!作为Apache 官方授权的 Flink 社区顶级会议,本届大会汇聚全球顶尖技术实践与行业洞察,面向开发者与数据领域专业人士开放议题征集。我们诚邀您分享创新技术思路与落地经验,共同打造一场实时计算领域的思想碰撞盛宴!自 2018 年首届 Flink Forward Asia(FFA)启航以来,这一技术盛会始终锚定实时计算领域前沿,七载深耕厚植,已从一域之火演进为亚太技术生态的标杆盛宴。
2025-04-10 13:58:15
827
原创 Dinky 和 Flink CDC 在实时整库同步的探索之路
本文整理自 Dinky 社区负责人,Apache Flink CDC contributor 亓文凯老师在 Flink Forward Asia 2024 数据集成(二)专场中的分享。主要讲述 Dinky 的整库同步技术方案演变至 Flink CDC Yaml 作业的探索历程,并深入讲解Flink CDC Yaml的一些细节能力。
2025-04-09 16:40:55
1294
原创 阿里云实时计算Flink广招天下英雄
4、产品改进和体验优化:持续追踪用户反馈的问题、推进产品需求管理、优化产品用户体验,根据公司业务发展方向和市场变化及时推进产品迭代改进,推动产品不断完善和升级上市。2、熟悉国际主流云厂商大数据产品,熟悉开源大数据主流技术产品,包括但不限于Flink、Spark、Hive、StarRocks、Milvus 等技术产品;3、市场开发和业务拓展:负责与运营、销售等市场团队合作,参与包括销售培训、市场推广、客户攻坚等相关市场活动,助力销售赢单、提升用户转化、优化用户留存。
2025-04-08 20:02:39
636
原创 Dinky 和 FlinkCDC 在实时整库同步的探索之路
摘要:本文整理自 Dinky 社区负责人,Apache Flink CDC contributor 亓文凯老师在 Flink Forward Asia 2024 数据集成(二)专场中的分享。主要讲述 Dinky 的整库同步技术方案演变至 Flink CDC Yaml 作业的探索历程,并深入讲解Flink CDC Yaml的一些细节能力。内容分为以下几个部分:Tips:关注「公众号」回复 FFA 2024 查看会后资料~01起源本次分享围绕数据集成,它也是 Flink CDC Yaml 作业的出现背景。在 D
2025-04-08 20:02:39
674
原创 Flink Shuffle 技术演进之路
本文整理自阿里云智能 Flink 团队的郭伟杰老师和哔哩哔哩的蒋晓峰老师在 Flink Forward Asia 2024 核心技术 (一) 专场中的分享,他们分别是 Apache Flink 和 Apache Celeborn 的 PMC member。Shuffle 是分布式系统中数据流转的关键技术之一,对作业性能有着极为重要的影响,在计算引擎中扮演着重要角色。自 Flink 诞生以来,已有十年的发展历程。
2025-04-01 20:02:49
1089
原创 Flink 批处理自适应执行计划优化
如果用静态 Broadcast Hash Join 优化策略对它进行优化,我们只能通过统计信息得到右表的原始数据量,由于表的大小15MB大于 Broadcast 的阈值 10MB,因此它不会在编译期被优化为 Broadcast Hash Join,但是在实际运行的时候,经过 Filter 算子的过滤,它所在的 stage 产出的实际数据量只有5MB,又满足了 Broadcast 的阈值,但是在原有的架构下,由于逻辑拓扑无法被修改,因此它还是会按照SortMergeJoin的方式去执行。
2025-03-27 20:01:29
624
转载 白话Apache Flink FLIP-2 窗口函数知道得更多:让窗口处理更加智能
当前的窗口函数只能知道"窗口里有什么数据",却不知道"这些数据是正常到达的还是迟到的",也不知道"这是第几次处理这个窗口的数据"。这些新增的触发信息就像是数据的"身份证",告诉我们每条数据的来龙去脉。首先是数据处理变得更加精细了,现在我们可以根据数据到达的时间来区别对待:对迟到的数据进行特殊处理,区分正常数据和补充数据,这样就能支持更复杂的业务场景。通过这个例子,我们可以看到新窗口函数的强大之处:它不仅知道数据的内容,还能区分数据到达的时间(准时还是迟到),记录处理的次数,这让数据处理变得更加灵活和智能。
2025-03-27 20:01:29
37
原创 Flink + Doris 实时湖仓解决方案
本文整理自 SelectDB 技术副总裁、Apache Doris PMC Chair 陈明雨老师在 Flink Forward Asia 2024 行业解决方案(二) 专场中的分享。
2025-03-25 20:02:37
1060
原创 Apache Flink 2.0.0: 实时数据处理的新纪元
实时计算的成本居高不下,无论是昂贵的资源消耗,还是掌握复杂的分布式流处理概念所需的学习曲线,都限制了实时计算在更多样化应用场景中的发挥。在 Flink 2.0 中,Flink 社区与 Paimon 社区紧密合作,充分发挥各自优势和前沿功能,带来了显著的增强和优化。这有效缓解了由数据倾斜引起的长尾延迟。- 通过与 Apache Paimon 社区的合作,Paimon 的湖存储格式目前原生支持 Flink 物化表,将 Flink 的流批计算与 Paimon 的高性能 ACID 事务相结合,实现统一的数据服务。
2025-03-24 20:01:21
966
原创 基于 pyflink 的算法工作流设计和改造
团队工作控制台负责配置算法控制流和数据源,数据源可以是 Kafka 或历史数据仓库。在算法一中,可能采用分类评估算法。例如,团队可能设计了一个从 2K 到 4K、6K 到 18K 的分类识别算法,用于将数据分为不同的区间。接下来,根据特定的频段进行噪声识别。例如,如果工况大于某个特定的 K 值,数据会被归入区间一;如果工况大于另一个 K 值,则归入区间二。最后,团队应用事件算法,将各种算法的输出匹配到不同类型的事件中。为了让大家更清楚地了解,以下将展示团队算法输出结果的具体形式。
2025-03-21 09:54:32
581
原创 阿里妈妈基于 Flink+Paimon 的 Lakehouse 应用实践
本文整理自阿里妈妈的数据技术专家陈亮老师在 Flink Forward Asia 2024 流式湖仓(三)专场中的分享。
2025-03-14 15:29:51
705
转载 白话Apache Flink FLIP-1 任务挂了怎么办:Flink 的明智恢复方案
FLIP-1 任务挂了怎么办:Flink 的明智恢复方案开篇你有没有遇到过这样的情况:正在开会,一群人讨论得热火朝天,突然有个人掉线了。最糟糕的是,主持人说:"好,我们从头开始重新来一遍!"。所有人都一脸懵:明明就一个人掉线,为啥要大家都重来?这不是浪费时间吗?在 Flink 的早期版本中,任务失败的处理方式就是这样的 —— 一个任务出问题,所有任务都得重新开始。今天我们要聊的 FLIP-1,就是...
2025-03-12 20:01:24
92
原创 官宣 | Fluss 0.6 发布公告
Fluss 社区很高兴地宣布Fluss 0.6.0版本正式发布。这一版本历时 3 个多月的密集开发,凝聚了全球 45 位贡献者的智慧与努力,累计完成 200+ 次代码提交 。衷心感谢每一位贡献者的支持!此次版本的发布带来了诸多功能亮点:列压缩:保留列裁剪性能的同时,降低6倍存储空间!MergeEngine:新增灵活的主键数据合并策略,满足不同的实时处理场景需求。Prefix Lookup:De...
2025-03-10 20:01:36
1173
原创 vivo基于Paimon的湖仓一体落地实践
摘要:本文整理自 vivo 互联网大数据专家、Apache Paimon Committer 徐昱老师在 Flink Forward Asia 2024 流式湖仓专场(一)中的分享。本次分享基于 vivo 的实际案例,展示在构建现代化数据湖仓过程中的一些关键决策和技术实践,包括组件选型、架构设计、性能优化以及数据迁移等方面的探索。内容分为以下几个部分:组件选型及架构离线加速流批链路统一消息组件平替...
2025-03-06 20:04:32
758
原创 Flink CDC + Hologres高性能数据同步优化实践
摘要:本文整理自阿里云高级技术专家胡一博老师在 Flink Forward Asia 2024 数据集成(二)专场中的分享。内容主要为以下四部分:Hologres 介绍写入优化消费优化未来展望Tips:关注「公众号」回复 FFA 2024 查看会后资料~01Hologres 简介首先,介绍一下 Hologres,它是一个实时数据仓库,能够提供一体化的分析和服务。分析即 OLAP,写入延迟基本可以达...
2025-03-04 19:58:02
806
原创 基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程的演示都将在 Flink CDC CLI 中进行,无需一行 Java/Scala 代码,也无需安装 IDE。Tips:点击「阅读原文」基于 Flink CDC 的企业级实时数据同步方案~这篇教程将展示如何基于 Flink CDC YAML 快速构建 MySQL 到 Kafka 的 Streaming ELT 作业,包含整库同步、表结构变更同步演示和关键参数介绍。准备阶段准备 Flink St...
2025-02-26 20:02:56
1061
原创 小米基于 Apache Paimon 的流式湖仓实践
摘要:本文整理自计算平台软件研发工程师钟宇江老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。内容主要为以下三部分:背景介绍基于 Paimon 构建近实时数据湖仓未来展望Tips:关注「公众号」回复 FFA 2024 查看会后资料~01背景介绍第一部分是背景介绍,简单介绍之前的典型的实时数仓的架构,以及引入 Apache Paimon 的原因。1.1 当前实时湖仓...
2025-02-25 20:00:58
698
原创 Flink基于Paimon的实时湖仓解决方案的演进
本文整理自阿里云高级研发工程师,Apache Flink Committer,Apache Paimon Contributor苏轩楠老师在 Flink Forward Asia 2024 核心技术(二)专场中的分享。
2025-02-20 20:01:37
558
转载 阿里云基于 Flink CDC 的现代数据栈云上实践
摘要:本文来自阿里云高级开发工程师,Apache Flink Committer 阮航老师分享的阿里云基于 Flink CDC 的现代数据栈云上实践。主要分为以下四个内容:基于 Flink CDC 的现代数据栈CDC YAML 核心功能CDC YAML 典型应用场景Demo & 未来展望Tips:点击「阅读原文」基于 Flink CDC 的企业级实时数据同步方案~01基于 Flink CD...
2025-02-19 20:02:57
114
原创 鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角大数据开发工程师,Apache Hudi Contributor 朱正军老师在 Flink Forward Asia 2024 生产实践(二)专场中的分享。
2025-02-19 18:14:45
1477
原创 Flink Materialized Table:构建流批一体 ETL
摘要:本文整理自阿里云智能集团 、Apache Flink Committer 刘大龙老师在 Flink Forward Asia 2024 流批一体(一)专场中的分享。主要分为以下三个方面:A User Story Of Data EngineerMaterialized Table 构建流批一体 ETLDemoTips:关注「公众号」回复FFA 2024 查看会后资料~01A User St...
2025-02-13 20:01:45
1040
原创 Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
摘要:本文整理自阿里云实时数仓 Hologres 负责人姜伟华老师在 Flink Forward Asia 2024 行业解决方案(二)专场中的分享。主要分为以下三个方面:实时数仓的发展历程从实时数仓到实时湖仓总结Tips:关注「公众号」回复FFA 2024 查看会后资料~01实时数仓的发展历程以一个典型客户案例来回顾实时数仓的发展历程。1.1 第一代实时数仓:Lambda 架构,离线实时分别计...
2025-02-11 20:01:38
942
转载 官宣|Apache Paimon 1.0 发布公告
Apache Paimon PMC 正式发布具有里程碑意义的 1.0 稳定版本(版本号 1.0.1)。这次核心版本历经近5个月的精心打磨,汇集了来自全球开源社区的 70 余位开发者智慧,累计完成 520 余项代码提交,充分展现了社区驱动的技术演进力量。我们谨向所有参与贡献的开发者致以诚挚谢意!值得关注的是,Paimon 1.0 已成功通过阿里巴巴集团和字节跳动等头部企业的严苛生产验证。在双十一全...
2025-02-10 20:01:35
307
原创 Flink CDC YAML:面向数据集成的 API 设计
本文整理自阿里云智能集团 、Flink PMC Member & Committer 徐榜江(雪尽)老师在 Flink Forward Asia 2024 数据集成(一)专场中的分享。
2025-02-06 20:03:40
920
转载 Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
摘要:本文整理自中阿里云 DataWorks 数据集成团队陈吉通老师在 Flink Forward Asia 2024 生产实践(二)专场中的分享。内容分为以下四个部分:1.阿里云 DataWorks 数据集成介绍2.DataWorks 数据集成入湖解决方案的架构和原理3.DataWorks 数据集成入湖场景的产品化案例分享4.未来规划Tips:关注「公众号」回复FFA 2024 查看会后资料~...
2025-01-26 20:00:58
112
原创 微财基于Flink构造实时变量池
。摘要:本文整理自微财资深数据开发工程师穆建魁老师在 Flink Forward Asia 2024 行业解决方案(一)专场中的分享。主要分为以下三个部分:微财科技基于 Flink 构建时变量池分享架构选型和开发效率提升策略实时变量池架构与多流关联优化实践Tips:关注「公众号」回复FFA 2024 查看会后资料~01微财科技基于 Flink 构建时变量池分享本次分享的的主题是微财基于 Flin...
2025-01-23 20:01:52
520
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人