- 博客(927)
- 收藏
- 关注
原创 流、表与“二元性”的幻象
探讨了流与表的“二元性”本质,澄清常见误解,指出 Kafka 与 Iceberg 等系统在缺乏主键和变更语义时无法真正实现该二元性,并强调统一系统对流表融合的重要性。像 Flink、Kafka Streams 等系统,在同一个引擎中同时暴露流和表 API,让二元性变得无缝。但理论上,你也可以用不同系统实现——:如果你正在寻找一个真正基于上述原则构建的系统,并希望获得额外能力(如直接查询流、内置缓存等),不妨关注一下。:Kafka 本身不是 changelog,这点必须强调,因为这直接影响下游处理的复杂度。
2025-11-06 20:02:21
728
原创 Flink 智能调优:从人工运维到自动化的实践之路
本文由阿里云Flink产品专家黄睿撰写,基于平台实践经验,深入解析流计算作业资源调优难题。针对人工调优效率低、业务波动影响大等挑战,介绍Flink自动调优架构设计,涵盖监控、定时、智能三种模式,并融合混合计费实现成本优化。展望未来AI化方向,推动运维智能化升级。
2025-10-30 20:01:00
938
原创 云栖实录|驰骋在数据洪流上:Flink+Hologres驱动零跑科技实时计算的应用与实践
零跑科技基于Flink构建实时计算平台的实践与成果 摘要:作为具备全域自研能力的智能电动车企业,零跑科技在销量快速增长的背景下,面临着车机信号实时处理等业务挑战。通过采用Flink作为核心实时计算引擎,零跑构建了五层大数据平台架构,实现了车辆故障实时诊断等关键应用。实践表明,云托管Flink相比开源方案性能提升60%-400%,存储压缩率提升5倍,同时简化了运维管理。未来将重点推进Flink与数据湖、AI的深度融合,打造流批一体架构和实时特征计算平台,持续提升决策时效性。(149字)
2025-10-29 14:45:36
1499
原创 理想汽车基于 Hologres + Flink 构建万亿级车联网信号实时分析平台
阿里云、Ververica、Confluent和LinkedIn联合推出Apache Flink Agents开源子项目,将AI智能体引入实时流处理系统。该项目基于Flink强大的流处理引擎,支持LLM集成、毫秒级延迟处理、精确一次一致性等核心特性,提供Python/Java API和多语言支持。首个0.1.0版本将于10月发布,标志着AI智能体与实时数据流处理融合的新里程碑。项目旨在解决工业场景中智能系统对实时事件响应的需求,推动事件驱动型AI的发展。
2025-10-28 17:02:02
1647
1
原创 云栖实录|实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
阿里云实时计算Flink版在2025云栖大会上发布重大升级,涵盖计算与存储创新。通过增量计算技术实现时效性与成本的平衡,推出Fluss流存储解决Kafka架构局限,支持湖流一体。在AI时代,产品强化实时智能能力,支持大模型调用、向量化处理,应用于风控、舆情分析等场景。未来将深化AI融合、增强云原生能力,构建统一流批一体架构。此次升级标志着实时计算进入新阶段,助力企业数字化转型。
2025-10-21 20:02:48
887
原创 Flink Agents 0.1.0 发布公告
Apache Flink Agents 0.1.0 首发预览版上线!作为 Flink 新子项目,它在流处理引擎上构建事件驱动的 AI 智能体,融合 LLM、工具、记忆与动态编排,支持高吞吐、低延迟、精确一次语义,实现数据与 AI 无缝集成,助力电商、金融等实时场景智能决策。
2025-10-16 18:04:57
1267
原创 阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
阿里云、Ververica、Confluent和LinkedIn联合推出Apache Flink Agents开源子项目,将AI智能体引入实时流处理系统。该项目基于Flink强大的流处理引擎,支持LLM集成、毫秒级延迟处理、精确一次一致性等核心特性,提供Python/Java API和多语言支持。首个0.1.0版本将于10月发布,标志着AI智能体与实时数据流处理融合的新里程碑。项目旨在解决工业场景中智能系统对实时事件响应的需求,推动事件驱动型AI的发展。
2025-10-16 16:25:50
421
原创 阿里云、Ververica、Confluent、Linkedin携手推进流式创新,共筑智能体AI未来
在 Flink Forward Barcelona 2025 大会上,我们宣布:阿里云、Ververica、Confluent 与 LinkedIn 四家数据流领域的领军企业正式携手,共同推进 Apache Flink Agents 的开发与共建 —— 这是 Apache Flink 社区推出的全新开源子项目,致力于将 AI 智能体(Agents)引入实时、事件驱动的系统世界。AI 的未来不仅是更聪明的模型,更是能在持续、可靠、大规模环境中行动的更智能的系统。欲了解更多信息,请访问。
2025-10-15 18:00:41
459
转载 Confluent 首席架构师万字剖析 Apache Fluss(三):湖流一体
对于大规模、基于对象存储的表而言,Paimon 仍是一个可靠的选择,但在低延迟流处理场景下 —— 当需求是高效的变更日志以及对表存储的高吞吐量小批量写入时,Paimon 就存在不足了。这种设计下,Paimon 表只需支持分析型的工作负载,可充分利用 Paimon 的各类表组织特性,无需为其他系统妥协;Fluss中开启湖流一体的表,Paimon表和Fluss表的分区以及分桶策略确实是保持一致的,这是有意为之的,主要为了在 Union Read 时,避免数据的shuffle,提升I/O并发和查询性能。
2025-10-11 08:00:58
375
转载 Confluent 首席架构师万字剖析 Apache Fluss(二):核心架构
值得注意的是,KV Tablet 的 leader 没有 follower,而是会随子log tablet的leader的变化而迁移:当子log tablet 发生leader选举时,KV Tablet leader会迁移到新的子log tablet leader所在的 TabletServer。否则保留旧行的值,最终生成合并后的新行。表分区的选择基于分区列,而桶的选择则采用与 Kafka 生产者类似的方式,如轮询(round-robin)、粘性(sticky)或基于分桶键的哈希(hash)。
2025-10-09 20:01:54
287
转载 Flink CDC 3.5 正式发布,新增 PostgreSQL Source 和 Fluss Sink 连接器
Flink CDC 3.5 版本中,社区贡献者重点改进了 Pipeline 框架在处理万表同步、元数据协调等场景的性能优化和稳定性改进,扩展了 CDC Pipeline 支持的上下游,新增了读取 PostgreSQL 数据源和写入 Apache Fluss 流存储的能力,解锁了通过简单的 YAML 文本便可实现整库同步 PostgreSQL 的数据到 Fluss 流存储等业务场景。现在,YAML pipeline 作业支持自动建表,并将上游的数据变更实时写入到 Fluss 中。扩充日期时间类型支持。
2025-09-29 20:01:42
589
转载 云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
在AI融合领域,阿里云通过 Spark + DLF 全模态湖仓实现文本、音频、视频等多模态数据的统一治理与AI模型训练,而 Flink + Milvus + LLM 构建的实时智能分析决策系统,则支持舆情分析、直播监控等场景的毫秒级AI决策。在企业级治理能力方面,覆盖存储、计算、开发、安全多维度,事前、事中、事后等全方位治理能力;,在支持 Paimon、Iceberg 等主流湖表格式的基础上,将存储格式从传统结构化数据,拓展至全模态数据场景,支持面向 AI 场景的 Lance 文件数据、表格数据等全类型。
2025-09-26 16:14:26
622
原创 零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
新架构构建了完整的数据处理流水线:数据从各类数据源统一接入后,通过 Flink 引擎进行实时和离线的流批一体化处理,处理后的数据统一存储在 Paimon 湖存储中,再通过多种查询引擎提供灵活的数据查询能力,最终为各类业务应用提供实时响应服务。在存储层面,通过湖仓数据一体化存储消除了数据孤岛,实现了真正的统一存储。当前的数据集成与处理流程在实时性方面仍有优化空间,例如通过引入流式处理与更高效的数据同步机制,可显著提升库存、价格等关键业务数据的更新频率,从而更快地响应前端业务变化,赋能实时决策与运营。
2025-09-23 20:02:07
1297
1
转载 云栖探展 | 大数据AI平台“企业级黑科技”抢先看
ODPS 是阿里云第一款产品,自 2009 年诞生以来,ODPS 见证了大数据技术的飞速发展,不仅支撑了阿里集团电商、金融、物流等核心业务的数据处理需求,还帮助全球客户实现从线下 IDC 到云原生的平滑过渡,从杭州走向世界,用中国技术定义世界标准。” 的现代数据架构演进趋势,为企业提供“实时、准实时、离线”数据分析一体化及 Data + AI 领域的创新实践,新一代的湖流一体的数智平台全面赋能企业实现高效智能的数据管理与AI融合创新。,并通过云上仿真评估与迭代,形成数据驱动与 AI 智能的协同闭环。
2025-09-23 20:02:07
199
转载 Confluent 首席架构师万字剖析 Apache Fluss(一):核心概念
Fluss 通过基于 RocksDB 中存储的现有数据高效计算变更,解决了 Paimon 的变更日志问题 —— 这比 Paimon 的查询方式更高效,且比 Paimon 基于compaction的变更日志流生成方式保真度更高、效率也更优。但 Fluss 主键表(以及 Paimon 主键表)的一大优势在于,它将 Flink 作业以前的私有 MV 状态转变为可供其他 Flink 作业使用的共享资源,并支持 lookup 关联 —— 而在此之前,其他 Flink 作业需要消费变更日志才能实现这一功能。
2025-09-22 20:01:39
553
转载 2025云栖大会·大数据AI参会攻略请查收!
践,覆盖大模型、AIGC、大数据 AI 一体、数据分析计算、数据开发治理、AI 搜索等多领域,期待与您在云栖小镇相聚,一同探索“阿里云智能集团计算平台事业部负责人 汪军华,带来大数据 AI 平台年度发布,解读大数据 AI 平台各款产品的重大功能升级。9月26日上午,在云栖大会开源大数据分论坛上,阿里云开源大数据团队将带来。云上 Flink 能力的最新技术分享。2025云栖大会·大数据AI。议程已定,只等你来!数据 + AI 无限。
2025-09-18 16:20:18
206
原创 Flink基于Paimon的实时湖仓解决方案的演进
本文整理自 Apache CommunityOverCode Asia 2025 大会上,阿里云技术专家,Apache Flink Committer 苏轩楠分享了基于 Paimon构建的 Flink 实时湖仓解决方案持续演进的深刻见解。
2025-09-17 17:01:08
1275
原创 Flink Agents:基于Apache Flink的事件驱动AI智能体框架
Apache Flink社区推出全新项目Flink Agents,专注于事件驱动智能体框架的开发。文章分析了AI技术发展的四个层次,指出Flink Agents聚焦于智能体AI的工程化实现,特别适用于实时直播分析、智能运维等场景。项目架构设计支持Python/Java两种语言,提供Workflow和ReAct两种编程模式,并集成主流模型提供商。Flink Agents通过将Flink流处理能力与AI智能体技术结合,为事件驱动AI应用提供了工业级解决方案,有望成为下一代AI应用开发的重要工具。
2025-09-10 16:11:04
1537
原创 淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
DLF 基于 Lakehouse 湖仓一体架构,以 Paimon 为核心 Lakehouse Format,兼容 Iceberg,构建统一多模态湖表存储服务,支持结构化、半结构化、非结构化等多模态数据存储、管理、优化,通过智能算法和存储结构优化大幅提升数据读写及存储效率,如果大家对这个产品感兴趣,也欢迎到阿里云官网搜索新版 DLF 进行体验。在早期阶段,饿了么面临着典型的烟囱式开发问题。从实时数仓的演进历程,到湖仓架构的落地实践,再到未来技术发展的前瞻规划,这个完整的实践案例为行业提供了宝贵的参考价值。
2025-09-04 20:01:11
1125
原创 从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
早期的流计算系统只能借助外部数据库来进行关联操作,不仅效率低下而且有复杂的系统维护以及数据一致性问题,以至于流计算一直作为大数据领域的二等公民直到 Flink 的一致性状态管理出现。然而,真正的难点在于如何让增量计算变得通用。Flink 引入强大的状态管理机制,标志着流式处理能力的一次根本性跃迁,并于 2017 年在 VLDB 数据库顶会发表这一关键成果,成为 Flink 乃至一致性状态管理的奠基之作。Flink 的状态管理充当了应用的“记忆”,提供持久化的上下文,让流式应用能够维护复杂的历史关系。
2025-09-02 20:02:14
1058
原创 抖音基于Flink的DataOps能力实践
本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。
2025-08-29 11:46:08
996
1
原创 Apache Flink错误处理实战手册:2年生产环境调试经验总结
本文由 Ververica 客户成功经理 Naci Simsek 撰写,基于其在多个行业 Flink 项目中的实战经验,总结了 Apache Flink 生产环境中常见的三大典型问题及其解决方案。内容涵盖 Kafka 连接器迁移导致的状态管理问题、任务槽负载不均问题以及 Kryo 序列化引发的性能陷阱,旨在帮助企业开发者避免常见误区,提升实时流处理系统的稳定性与性能。
2025-08-27 16:22:51
1255
原创 Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
然而,真正的挑战并不在于存储容量的限制,而在于有限的屏幕展示空间,以及为每位用户提供个性化、相关性强的商品推荐的需求。其中一半的增量数据来自每小时的批处理更新(T+1H),包括聚合指标和已处理的分析数据,这些数据不需要实时处理,但需要比每日批处理更频繁地更新。我们的经验表明,成功的数字化转型不仅需要技术采纳,更需要深思熟虑的架构设计、谨慎的技术选型以及对业务需求的深刻理解。Flink 社区的贡献,加上阿里巴巴在该领域的大量开发工作,已经创建了一个强大的批流融合生态系统,能够处理我们复杂的业务需求。
2025-08-21 20:01:34
1104
原创 Fluss:重新定义实时数据分析与 AI 时代的流式存储
Apache Fluss 是一个专为实时分析与 AI 场景打造的流式存储系统,旨在解决传统架构中数据重复复制、成本高昂、延迟高等问题。它基于 Apache Arrow 构建,支持列式存储、KV 查询、湖仓集成与流批统一读取,显著提升机器学习与多模态数据处理效率。Fluss 已在阿里巴巴大规模落地,具备高性能、低成本、易扩展等优势,未来将深度集成多模态 AI 与开放数据生态,助力构建统一的实时数据底座。
2025-08-19 20:02:26
1282
转载 对话王峰:Apache Flink 在 AI 时代的“剑锋”所向
我们发现周边数据基础设施不完善,我们就一个个去填补空白,最终构建了一个完整的流式数据处理生态,涵盖了核心数据处理、数据同步、数据分析,包括面向流式分析的结构化流存储,以及面向流式更新和实时更新的。因此,目前我们的主要策略并非直接优化模型本身,而是希望通过将大数据与大模型技术相结合,打造智能化的数据处理系统和决策系统,从而解决实际生产中的问题。这使得在实时数据分析过程中,我们可以将文本、语音、图片等结构化和非结构化数据直接传递给大模型,获取分析结果,并与传统的大数据分析相结合,实现更强大的数据分析能力。
2025-08-14 20:03:06
371
转载 限时领票|走进2025 · 云栖大会,开启通往AGI未来之旅
2025 云栖大会来啦,报名通道现已开启,在这里与最密集的AI新思想、新发布、新形态相遇。3大主论坛,超百场话题专场,30+ Data&AI 话题,带你探索AI时代无限边界!🚀 我们的技术主场 此次云栖,我们将深入剖析各行业痛点难题,聚焦30+Data&AI 话题,邀请行业专家分享实战经验及解决方案。揭秘如何构建AI时代的大数据基础设施,了解多模计算新范式;探索业界最优推理优化框架及后训练技术,大规模服务提效实践;9 月 24 日 - 9 月 26 日。介绍开源大数据平台技术将如何演进,
2025-08-14 20:03:06
292
转载 带上电脑来参会!Flink湖仓一体实战:做任务,赢限定好礼
此外, Flink CDC 使用了增量快照算法,无需任何额外配置即可实现全量和增量数据的无缝切换。解决方案:依托阿里云数据湖构建 DLF 的统一元数据与存储管理,Paimon 实现湖上流批一体,通过 DLF + Paimon + 计算引擎集成,构建统一存储、口径一致、生态开放的云原生 Lakehouse,加速数据价值释放。让您无论身处何地,都能实时参与,洞察实时计算最新趋势,探索行业创新实践。背景痛点:传统数据集成常采用“全量 + 增量”两套系统,且全量完成后需再与增量表合并,架构复杂、维护困难。
2025-08-13 10:30:58
159
原创 Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
2025-08-07 20:01:19
1907
原创 Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
2025-08-05 20:01:53
1218
原创 Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,迈向统一 Data + AI 平台。新增 AI 模型 DDL、扩展 ML_PREDICT 函数,强化实时 AI 与流处理融合;引入 Process Table Functions、VARIANT 类型、DeltaJoin 与 MultiJoin,提升实时数据处理能力。感谢 116 位贡献者!
2025-08-01 14:15:31
1972
原创 抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师苏兴老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。
2025-07-31 09:55:11
1293
原创 Flink Forward Asia 2025 城市巡回 · 上海站
自 2018 年首届 Flink Forward Asia(FFA)启航以来,这一技术盛会始终锚定实时计算领域的前沿方向,八年深耕,从一域之火演进为亚太区技术生态的标杆盛宴。如今,为进一步推动国内 Flink 技术生态的传播 FFA 城市巡回首站正式落地上海,诚邀您共赴这场技术与实践的巅峰之约!无论您是 Flink 开发者,还是实时数据领域的实践者,Flink Forward Asia 都是不可错过的技术盛会!聆听行业领袖与技术专家的深度洞察,探索 Flink 在实时计算领域的最新实践与创新。
2025-07-25 17:48:12
1038
原创 抖音集团基于Flink的亿级RPS实时计算优化实践
本文整理自抖音集团数据工程师陶王飞和羊艺超老师,在 Flink Forward Asia 2024 生产实践(一)专场中的分享主要内容。
2025-07-23 16:13:17
1412
原创 淘天AB实验分析平台Fluss落地实践:更适合实时OLAP的消息队列
在消费消息队列的任务中,消费者通常只消费数据的一部分,但是 Flink 任务仍然需要读取所有列的数据,Flink Source IO 出现了很大的浪费,究其根本,现有的消息队列均是行存,对于需要处理大规模数据的场景来说,行存格式的效率则显得不足。我们消费访问日志采集的消息队列数据后,在 Flink 中进行业务逻辑处理,然而,当 SQL 比较复杂,尤其是存在 Order by、Join 操作时,会导致 Flink 处理的回撤流翻倍,Flink 状态非常庞大,使用大量的计算资源。
2025-07-17 20:03:22
1412
转载 【邀请函】相约 COC Asia 2025,共探 Flink、Paimon、Fluss、Celeborn 开源新境界!
展台,与项目的 Committer 们面对面交流心得。这不仅是一场技术的盛宴,更是一次心与心连接的宝贵机会,而且还有机会赢取我们精心准备的项目定制小礼品,让这份技术之旅留下温馨的纪念。期待在美好的一天里,与您相聚在这个充满活力与创意的空间,共同编织知识的网,不见不散哟!我们将通过分享 Apache 项目的最新突破和 Apache 孵化器中即将到来的创新,向大家展示 ASF 如何基于“The Apache Way”提供可靠、创新的开源软件和开放、协作、创新的社区,持续推动社会进步,并为全球用户提供价值。
2025-07-15 20:00:52
335
原创 热烈祝贺 Flink 2.0 存算分离入选 VLDB 2025
Apache Flink 2.0架构实现重大突破,论文《Disaggregated State Management in Apache Flink® 2.0》被VLDB 2025收录。该研究提出解耦式状态管理架构,通过异步执行框架与全新存储引擎ForSt,实现状态与计算分离,显著提升扩展性、容错能力与资源效率,推动Flink向云原生演进,开启流计算新时代。
2025-07-08 20:00:55
1621
原创 Flink Forward Asia 2025 主旨演讲精彩回顾
依托于 Flink 流式引擎内核,Flink Agents 天然具备大规模、分布式、实时数据处理能力,以及成熟的状态管理、一致性保障与容错恢复能力,在此基础上,Flink Agents 提供了开发 Agentic AI 系统所必需的 LLM、Memory、Tool、Prompt 等关键概念的封装,以及动态执行计划、循环执行、共享状态、可观测性等能力。,将状态存储与计算任务分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。
2025-07-03 20:01:40
1342
转载 京东零售基于Flink的推荐系统智能数据体系
摘要:本文整理自京东零售技术专家张颖老师,在 Flink Forward Asia 2024 生产实践(二)专场中的分享,介绍了基于Flink构建的推荐系统数据,以及Flink智能体系带来的智能服务功能。内容分为以下六个部分:样本特征可解释指标Tips:关注「公众号」回复 FFA 2024 查看会后资料~京东推荐系统的数据体系极其复杂,从召回、模型到策略和效果评估,每个环节都需要强大的海量数据处理能力支撑。然而,在实际运行中,整个数据链路面临着诸多挑战:如实时与离线数据的埋点口径不一致、数仓模型存在偏差、计
2025-07-01 20:02:46
417
原创 官宣 | Fluss 0.7 发布公告:稳定性与架构升级
我们很高兴地宣布,Fluss 0.7 版本现已正式发布!本次版本围绕稳定性、架构升级、性能优化及安全性等方面进行了深入打磨,进一步夯实了其在生产环境中的可用性与可靠性。这一版本历时 3 个月的开发,累计完成 250+ 次代码提交 ,是 Fluss 迈向成熟生产级流处理平台演进的重要里程碑。
2025-06-19 17:35:52
1000
原创 Flink Forward Asia新加坡2025主论坛议程公布!即刻预约观看
在李劲松老师的演讲中,他将为各位开发者展示 Flink+Paimon 在业内广泛落地了流式更新入湖的能力,与 Flink CDC 入湖结合如何实现自动 Schema Evolution,以及如何通过 Deletion Vectors 模式为 OLAP 引擎提供极速查询。因此,在最新版本的 Paimon 中,结合 Iceberg 最新的 Deletion Vectors 功能,Paimon 的数据可以实时同步到与 Iceberg 兼容的视图,大大提高可用性。如果您无法亲临现场,也不用担心!
2025-06-12 20:00:35
1128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅