- 博客(870)
- 收藏
- 关注
转载 业务需求基础,数据架构就不基础!StarRocks Connect 2025 即将开讲
张友东将带来《StarRocks: Connect Data Analytics with the World》的开场演讲,分享 StarRocks Global Community 的最新进展和技术路线图,并从技术架构角度深度解析 StarRocks 如何连接数据分析与 AI,想了解 StarRocks 未来发展方向的朋友不容错过。:精酿啤酒配上香气四溢的 BBQ,在轻松愉快的氛围里,你可以和讲师、伙伴们随意畅聊,探讨那些意犹未尽的技术话题,结识更多志同道合的朋友,激发新的灵感与火花。
2025-09-04 20:01:11
2
原创 淘宝闪购基于Flink&Paimon的Lakehouse生产实践:从实时数仓到湖仓一体化的演进之路
DLF 基于 Lakehouse 湖仓一体架构,以 Paimon 为核心 Lakehouse Format,兼容 Iceberg,构建统一多模态湖表存储服务,支持结构化、半结构化、非结构化等多模态数据存储、管理、优化,通过智能算法和存储结构优化大幅提升数据读写及存储效率,如果大家对这个产品感兴趣,也欢迎到阿里云官网搜索新版 DLF 进行体验。在早期阶段,饿了么面临着典型的烟囱式开发问题。从实时数仓的演进历程,到湖仓架构的落地实践,再到未来技术发展的前瞻规划,这个完整的实践案例为行业提供了宝贵的参考价值。
2025-09-04 20:01:11
538
原创 从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
早期的流计算系统只能借助外部数据库来进行关联操作,不仅效率低下而且有复杂的系统维护以及数据一致性问题,以至于流计算一直作为大数据领域的二等公民直到 Flink 的一致性状态管理出现。然而,真正的难点在于如何让增量计算变得通用。Flink 引入强大的状态管理机制,标志着流式处理能力的一次根本性跃迁,并于 2017 年在 VLDB 数据库顶会发表这一关键成果,成为 Flink 乃至一致性状态管理的奠基之作。Flink 的状态管理充当了应用的“记忆”,提供持久化的上下文,让流式应用能够维护复杂的历史关系。
2025-09-02 20:02:14
616
原创 抖音基于Flink的DataOps能力实践
本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。
2025-08-29 11:46:08
792
1
原创 Apache Flink错误处理实战手册:2年生产环境调试经验总结
本文由 Ververica 客户成功经理 Naci Simsek 撰写,基于其在多个行业 Flink 项目中的实战经验,总结了 Apache Flink 生产环境中常见的三大典型问题及其解决方案。内容涵盖 Kafka 连接器迁移导致的状态管理问题、任务槽负载不均问题以及 Kryo 序列化引发的性能陷阱,旨在帮助企业开发者避免常见误区,提升实时流处理系统的稳定性与性能。
2025-08-27 16:22:51
1027
原创 Lazada 如何用实时计算 Flink + Hologres 构建实时商品选品平台
然而,真正的挑战并不在于存储容量的限制,而在于有限的屏幕展示空间,以及为每位用户提供个性化、相关性强的商品推荐的需求。其中一半的增量数据来自每小时的批处理更新(T+1H),包括聚合指标和已处理的分析数据,这些数据不需要实时处理,但需要比每日批处理更频繁地更新。我们的经验表明,成功的数字化转型不仅需要技术采纳,更需要深思熟虑的架构设计、谨慎的技术选型以及对业务需求的深刻理解。Flink 社区的贡献,加上阿里巴巴在该领域的大量开发工作,已经创建了一个强大的批流融合生态系统,能够处理我们复杂的业务需求。
2025-08-21 20:01:34
954
原创 Fluss:重新定义实时数据分析与 AI 时代的流式存储
Apache Fluss 是一个专为实时分析与 AI 场景打造的流式存储系统,旨在解决传统架构中数据重复复制、成本高昂、延迟高等问题。它基于 Apache Arrow 构建,支持列式存储、KV 查询、湖仓集成与流批统一读取,显著提升机器学习与多模态数据处理效率。Fluss 已在阿里巴巴大规模落地,具备高性能、低成本、易扩展等优势,未来将深度集成多模态 AI 与开放数据生态,助力构建统一的实时数据底座。
2025-08-19 20:02:26
984
转载 对话王峰:Apache Flink 在 AI 时代的“剑锋”所向
我们发现周边数据基础设施不完善,我们就一个个去填补空白,最终构建了一个完整的流式数据处理生态,涵盖了核心数据处理、数据同步、数据分析,包括面向流式分析的结构化流存储,以及面向流式更新和实时更新的。因此,目前我们的主要策略并非直接优化模型本身,而是希望通过将大数据与大模型技术相结合,打造智能化的数据处理系统和决策系统,从而解决实际生产中的问题。这使得在实时数据分析过程中,我们可以将文本、语音、图片等结构化和非结构化数据直接传递给大模型,获取分析结果,并与传统的大数据分析相结合,实现更强大的数据分析能力。
2025-08-14 20:03:06
68
转载 限时领票|走进2025 · 云栖大会,开启通往AGI未来之旅
2025 云栖大会来啦,报名通道现已开启,在这里与最密集的AI新思想、新发布、新形态相遇。3大主论坛,超百场话题专场,30+ Data&AI 话题,带你探索AI时代无限边界!🚀 我们的技术主场 此次云栖,我们将深入剖析各行业痛点难题,聚焦30+Data&AI 话题,邀请行业专家分享实战经验及解决方案。揭秘如何构建AI时代的大数据基础设施,了解多模计算新范式;探索业界最优推理优化框架及后训练技术,大规模服务提效实践;9 月 24 日 - 9 月 26 日。介绍开源大数据平台技术将如何演进,
2025-08-14 20:03:06
158
转载 带上电脑来参会!Flink湖仓一体实战:做任务,赢限定好礼
此外, Flink CDC 使用了增量快照算法,无需任何额外配置即可实现全量和增量数据的无缝切换。解决方案:依托阿里云数据湖构建 DLF 的统一元数据与存储管理,Paimon 实现湖上流批一体,通过 DLF + Paimon + 计算引擎集成,构建统一存储、口径一致、生态开放的云原生 Lakehouse,加速数据价值释放。让您无论身处何地,都能实时参与,洞察实时计算最新趋势,探索行业创新实践。背景痛点:传统数据集成常采用“全量 + 增量”两套系统,且全量完成后需再与增量表合并,架构复杂、维护困难。
2025-08-13 10:30:58
69
原创 Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
2025-08-07 20:01:19
1498
原创 Apache Flink:从实时数据分析到实时AI
Apache Flink 是实时数据处理领域的核心技术,历经十年发展,已从学术项目成长为实时计算的事实标准。它在现代数据架构中发挥着关键作用,支持实时数据分析、湖仓集成及实时 AI 应用。随着 Flink 2.0 的发布,其在流式湖仓、AI 驱动决策等方面展现出强大潜力,正推动企业迈向智能化、实时化的新阶段。
2025-08-05 20:01:53
910
原创 Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,迈向统一 Data + AI 平台。新增 AI 模型 DDL、扩展 ML_PREDICT 函数,强化实时 AI 与流处理融合;引入 Process Table Functions、VARIANT 类型、DeltaJoin 与 MultiJoin,提升实时数据处理能力。感谢 116 位贡献者!
2025-08-01 14:15:31
1316
原创 抖音集团基于Paimon的流式数据湖应用实践
本文整理自抖音集团数据工程师苏兴老师在 Flink Forward Asia 2024 流式湖仓(一)专场中的分享。
2025-07-31 09:55:11
787
原创 Flink Forward Asia 2025 城市巡回 · 上海站
自 2018 年首届 Flink Forward Asia(FFA)启航以来,这一技术盛会始终锚定实时计算领域的前沿方向,八年深耕,从一域之火演进为亚太区技术生态的标杆盛宴。如今,为进一步推动国内 Flink 技术生态的传播 FFA 城市巡回首站正式落地上海,诚邀您共赴这场技术与实践的巅峰之约!无论您是 Flink 开发者,还是实时数据领域的实践者,Flink Forward Asia 都是不可错过的技术盛会!聆听行业领袖与技术专家的深度洞察,探索 Flink 在实时计算领域的最新实践与创新。
2025-07-25 17:48:12
875
原创 抖音集团基于Flink的亿级RPS实时计算优化实践
本文整理自抖音集团数据工程师陶王飞和羊艺超老师,在 Flink Forward Asia 2024 生产实践(一)专场中的分享主要内容。
2025-07-23 16:13:17
1047
原创 淘天AB实验分析平台Fluss落地实践:更适合实时OLAP的消息队列
在消费消息队列的任务中,消费者通常只消费数据的一部分,但是 Flink 任务仍然需要读取所有列的数据,Flink Source IO 出现了很大的浪费,究其根本,现有的消息队列均是行存,对于需要处理大规模数据的场景来说,行存格式的效率则显得不足。我们消费访问日志采集的消息队列数据后,在 Flink 中进行业务逻辑处理,然而,当 SQL 比较复杂,尤其是存在 Order by、Join 操作时,会导致 Flink 处理的回撤流翻倍,Flink 状态非常庞大,使用大量的计算资源。
2025-07-17 20:03:22
1111
转载 【邀请函】相约 COC Asia 2025,共探 Flink、Paimon、Fluss、Celeborn 开源新境界!
展台,与项目的 Committer 们面对面交流心得。这不仅是一场技术的盛宴,更是一次心与心连接的宝贵机会,而且还有机会赢取我们精心准备的项目定制小礼品,让这份技术之旅留下温馨的纪念。期待在美好的一天里,与您相聚在这个充满活力与创意的空间,共同编织知识的网,不见不散哟!我们将通过分享 Apache 项目的最新突破和 Apache 孵化器中即将到来的创新,向大家展示 ASF 如何基于“The Apache Way”提供可靠、创新的开源软件和开放、协作、创新的社区,持续推动社会进步,并为全球用户提供价值。
2025-07-15 20:00:52
178
原创 热烈祝贺 Flink 2.0 存算分离入选 VLDB 2025
Apache Flink 2.0架构实现重大突破,论文《Disaggregated State Management in Apache Flink® 2.0》被VLDB 2025收录。该研究提出解耦式状态管理架构,通过异步执行框架与全新存储引擎ForSt,实现状态与计算分离,显著提升扩展性、容错能力与资源效率,推动Flink向云原生演进,开启流计算新时代。
2025-07-08 20:00:55
1424
原创 Flink Forward Asia 2025 主旨演讲精彩回顾
依托于 Flink 流式引擎内核,Flink Agents 天然具备大规模、分布式、实时数据处理能力,以及成熟的状态管理、一致性保障与容错恢复能力,在此基础上,Flink Agents 提供了开发 Agentic AI 系统所必需的 LLM、Memory、Tool、Prompt 等关键概念的封装,以及动态执行计划、循环执行、共享状态、可观测性等能力。,将状态存储与计算任务分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。
2025-07-03 20:01:40
886
转载 京东零售基于Flink的推荐系统智能数据体系
摘要:本文整理自京东零售技术专家张颖老师,在 Flink Forward Asia 2024 生产实践(二)专场中的分享,介绍了基于Flink构建的推荐系统数据,以及Flink智能体系带来的智能服务功能。内容分为以下六个部分:样本特征可解释指标Tips:关注「公众号」回复 FFA 2024 查看会后资料~京东推荐系统的数据体系极其复杂,从召回、模型到策略和效果评估,每个环节都需要强大的海量数据处理能力支撑。然而,在实际运行中,整个数据链路面临着诸多挑战:如实时与离线数据的埋点口径不一致、数仓模型存在偏差、计
2025-07-01 20:02:46
179
原创 官宣 | Fluss 0.7 发布公告:稳定性与架构升级
我们很高兴地宣布,Fluss 0.7 版本现已正式发布!本次版本围绕稳定性、架构升级、性能优化及安全性等方面进行了深入打磨,进一步夯实了其在生产环境中的可用性与可靠性。这一版本历时 3 个月的开发,累计完成 250+ 次代码提交 ,是 Fluss 迈向成熟生产级流处理平台演进的重要里程碑。
2025-06-19 17:35:52
862
原创 Flink Forward Asia新加坡2025主论坛议程公布!即刻预约观看
在李劲松老师的演讲中,他将为各位开发者展示 Flink+Paimon 在业内广泛落地了流式更新入湖的能力,与 Flink CDC 入湖结合如何实现自动 Schema Evolution,以及如何通过 Deletion Vectors 模式为 OLAP 引擎提供极速查询。因此,在最新版本的 Paimon 中,结合 Iceberg 最新的 Deletion Vectors 功能,Paimon 的数据可以实时同步到与 Iceberg 兼容的视图,大大提高可用性。如果您无法亲临现场,也不用担心!
2025-06-12 20:00:35
933
原创 流批一体向量化引擎Flex
本文整理自蚂蚁技术专家刘勇在Flink Forward Asia 2024的分享,探讨了Flink流批一体向量化引擎的技术实践。内容涵盖:1)向量化技术背景,通过SIMD指令和列式存储提升计算效率;2)架构设计,基于Velox构建Flex引擎,实现JNI胶水层、Native算子层等核心模块;3)关键优化,如拆分RexInputRef字段降低转换开销、支持NativeSource/Sink等。测试显示端到端性能提升4倍以上,为Flink填补了向量化能力空白,助力湖仓一体场景降本增效。
2025-06-11 13:43:38
863
原创 Flink在B站的大规模云原生实践
本文整理自哔哩哔哩资深开发工程师丁国涛老师,在 Flink Forward Asia 2024 云原生专场的分享。
2025-06-06 15:37:03
1472
原创 Fluss 实战:用 Partial Update 构建实时宽表的新范式
传统流式数据管道通过多表 Join 构建宽表,如实时推荐引擎需整合用户偏好、购买记录等8个数据源,但此方法在大规模场景下状态管理复杂、资源消耗高且调试困难。Fluss 提出部分更新方案,基于主键将各数据源独立写入共享宽表,避免复杂 Join 操作。示例中,通过 Flink SQL 创建推荐、曝光、点击等表,并逐步插入数据实现宽表构建。最终,借助 Fluss 的高效合并机制,输出包含最新信息的统一视图,提升可扩展性和维护性。
2025-06-05 13:46:09
1024
原创 介绍一下这只小水獭 —— Fluss Logo 背后的故事
开源流存储项目Fluss正式发布专属Logo——一只踏浪前行的水獭。这个设计经过30多版迭代,完美诠释了项目的流动性、适应性和友好性三大核心理念。水獭形象既契合项目名称"河流"的德语含义,又以可爱亲和的形象拉近社区距离。团队还分享了从ChatGPT获取灵感、社区反馈收集等设计过程,并预告了即将推出的周边产品。目前Fluss已向Apache基金会提交孵化提案,有望成为开源社区新成员。
2025-05-30 10:09:02
1177
原创 基于 Flink+Paimon+Hologres 搭建淘天集团湖仓一体数据链路
本文整理自淘天集团高级数据开发工程师朱奥老师在 Flink Forward Asia 2024 流式湖仓论坛的分享。
2025-05-28 13:48:45
1467
原创 Amoro + Flink CDC 数据融合入湖新体验
摘要:本文整理自货拉拉高级大数据开发工程师,Apache Amoro PMC 陈政羽老师,在Flink Forward Asia 2024 数据集成(一)专场的分享。内容分为以下四个部分:01Flink CDC 在货拉拉应用首先讲解 Flink CDC 目前在货拉拉上的应用以及场景。CDC 是上半年开始接入的数据集成方案,现在已经有50多个任务跑在正式生产环境上。我们希望后续建设一个标准化的数据采集平台和数据同步的平台,将后续比较老旧的任务 canal 取消。目前数据量每天都在TB级以上,包括一些订单和司机
2025-05-22 20:02:37
1487
原创 Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink 社区正式发布了 Flink CDC 3.4.0 版本,该版本经过4个月的开发,吸引了51位贡献者,完成了259次代码提交,并修复了65个问题。
2025-05-21 14:44:47
1523
原创 Flink x Paimon 在抖音集团生活服务的落地实践
摘要:本文整理自抖音集团数据工程师陆魏老师和流式计算工程冯向宇老师,在Flink Forward Asia 2024 流式湖仓(二)专场的分享。内容分为以下三个部分:Tips:关注「公众号」回复 FFA 2024 查看会后资料~01背景及现状抖音生活服务是抖音集团重要的业务板块,主要通过抖音直播、短视频、团购以及本地同城等流量入口,引导用户进行线上下单支付,并进而引导用户线下消费履约,最终完成线上到线下的引流操作。近些年,抖音生活服务迎来了快速增长,伴随业务增长,生活服务实时数仓技术也迎来关键的技术转变。第
2025-05-15 20:02:48
832
转载 当实时湖仓遇上湖流一体|Flink 邀您一同参与 OceanBase 开发者大会
Fluss 湖流一体架构应运而生,通过流存储与数据湖的深度融合,提供统一 SQL 接口访问热数据与 Paimon 湖仓冷数据,彻底消除开发/运维割裂。Fluss 的插件化多湖支持与多引擎兼容,释放数据湖扩展性,构建从实时交易到全量分析的闭环,为企业提供毫秒级响应、低成本存储与高一致性分析的湖仓一体化底座,成为AI时代数据架构升级的关键选择。为主题,汇聚众多数据库领军者、AI 实践先锋与开发者,共同探讨数据库与 AI 协同创新的技术趋势。在 AI 浪潮席卷全球、Data+AI 深度融合的当下,本届大会以。
2025-05-14 08:01:36
134
转载 直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
阿里云消息队列 Kafka 版与实时计算 Flink 版,100%兼容开源协议,基于阿里云基础设施和云原生架构,具备显著超越开源的能力优势,并通过全托管、免运维 Connector 可以轻松实现数据集成和计算。阿里云消息队列 Kafka 版与实时计算 Flink 版的强强联合,三位阿里云技术专家联袂开讲,为企业提供了一套从数据采集到智能分析的解决方案——零门槛构建分布式实时分析平台,让数据真正"活"起来!🚀 实时计算时代已经来临,让我们一起用 Flink 和 Kafka,开启你的流处理之旅!
2025-05-08 20:01:02
114
原创 网易游戏 Flink 云原生实践
本文整理自网易游戏实时计算&数据湖平台负责人林小铂老师和网易游戏大数据开发工程师陈宇智老师,在Flink Forward Asia 2024 云原生专场的分享。
2025-05-08 17:20:02
1292
原创 中国联通网络资源湖仓一体应用实践
中国联通网络资源中心作为全球规模领先的集约化资源管理平台,承载全国31省域的网络资源数据、骨干网及国际出口网络等百余类异构数据资源,管理规模达百亿级实体实例。其核心业务是通过物理网络数字化映射技术,将光接入网、核心交换设备等物理基础设施转化为高精度数字模型,构建全域网络资源图谱,实现从信息化设备到智能化数字网络的升级。我们采用Flink + Paimon 湖仓一体架构解决以上问题,整体链路如下图。架构主要分为三个部分:全增量数据接入、数据归档、数据压缩合并。
2025-04-29 15:12:59
829
原创 抖音集团电商流量实时数仓建设实践
本文整理自抖音集团电商数据工程师姚遥老师在 Flink Forward Asia 2024 分论坛中的分享。
2025-04-25 18:07:25
1421
1
原创 基于 Flink 的中国电信星海时空数据多引擎实时改造
基于 Flink 的中国电信星海时空数据多引擎实时改造项目,通过对现有系统的架构优化和技术创新,成功解决了业务发展过程中面临的数据膨胀、场景分散和响应时效等问题。关键优化技术的应用提升了系统的性能和效率。未来,随着技术的不断发展和业务的持续拓展,该系统将在更多领域发挥重要作用,为中国电信的数字化转型和智慧城市的建设提供有力支持。Flink 的高性能和低延迟特性使得数据处理效率得到了显著提升,统一资源池的管理方式提高了资源的利用率,自动扩缩容功能则能够根据业务负载动态调整资源配置,确保系统的稳定性和可靠性。
2025-04-22 20:03:05
662
原创 京东物流基于Flink & StarRocks的湖仓建设实践
本文整理自京东物流高级数据开发工程师梁宝彬先生在 Flink Forward Asia 2024 论坛中的分享。
2025-04-18 13:42:11
1352
原创 中原银行实时场景企业级解决方案
本文整理自中原银行实时数据开发平台负责人杜威科老师在 Flink Forward Asia 2024 流式湖仓(二)专场中的分享。内容分为以下几个部分:1、需求分析2、解决方案3、场景案例4、现状展望首先,介绍下中原银行业务的发展概况。中原银行成立于 2014 年12 月,是分支机构网点覆盖河南全省的省属法人银行。2017年7月,中原银行在香港联交所主板挂牌上市。中原银行下设18家分行,拥有超过 1.8 万名员工,并设立了 600 余个服务网点,资产规模达 1.3 万亿元。
2025-04-16 11:16:26
1104
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人