本篇内容主要分为四个部分:
-
小米的大数据发展演变
-
流批一体的平台建设
-
流批一体应用场景
-
未来规划
一、小米的大数据发展演变

-
2019 年之前,小米的实时计算主要以 SparkStreaming 为主,少部分 Storm,离线计算以 Spark 为主。
-
2019 年,开始接入 Flink,并广泛应用于信息流搜索推荐、广告实时样本、实时 ETL 等场景,逐步替换了原来的 SparkStreaming 作业,得益于 Flink 框架的各种优秀特性,我们在作业的正确性,实时性,资源使用效率方面都有较大提升。
-
2020 年,开始接入使用 FlinkSQL,并广泛用于实时数仓的建设和实时 ETL 作业的开发。FlinkSQL 的实时数仓将数据链路由 T+1 降低到了秒级。
-
2021 年&#
本文介绍了小米如何从基于Spark和Storm的实时计算平台转向Flink,实现流批一体的平台建设,包括元数据管理、权限控制、作业调度和生态建设。通过使用Flink SQL和Iceberg,小米成功降低了实时数仓延迟至秒级,并通过统一的元数据管理和权限管理提高了开发效率。未来,小米将继续推进流批一体化建设。
订阅专栏 解锁全文
880

被折叠的 条评论
为什么被折叠?



