云原生计算
文章平均质量分 93
字节跳动云原生计算
这个作者很懒,什么都没留下…
展开
-
字节跳动 Flink 大规模云原生化实践
资源管理演进字节跳动的大数据资源管理架构,以及 Flink 的部署演进,大致可以分为三个阶段。第一阶段,完全基于 YARN 的离线资源管理。大规模使用 YARN 管理的大数据集群,有效提升了 Flink 的资源使用率,并降低了资源运营、运维等方面的成本。于此同时,针对 Flink 的特性,对 YARN 做了大量定制研发,如支持 Gang 调度等。在此阶段,Flink集群已经达到了相当大的规模。第二阶段,离线资源混部阶段。原创 2023-03-31 14:17:14 · 264 阅读 · 0 评论 -
字节跳动湖平台在批计算和特征场景的实践
本文整理自火山引擎云原生计算研发工程师刘纬在 DataFunCon 2022 上的演讲。随着业务发展,字节跳动特征存储已到达 EB 级别,日均增量 PB 级别,每天训练资源量级为百万 Core。随之而来的是内部业务方对原始数据存储、特征回填需求、降低成本、提升速度等需求的期待。本次分享将围绕问题背景、选型& Iceberg 简介、基于 Iceberg 的实践及未来规划展开。原创 2023-02-23 16:10:11 · 220 阅读 · 0 评论 -
十个月,专访李本超的 Apache Calcite PMC 进击之路
本文出自字节跳动基础架构流式计算方向的工程师李本超同学专访。李本超从2022年3月开始参与 Apache Calcite 社区贡献,主要贡献了包括子查询优化、Join 优化、JSON 函数优化、JDBC Adapter、通用的表达式优化等。于2023年1月正式受邀成为 Apache Calcite PMC。原创 2023-02-16 16:33:16 · 284 阅读 · 0 评论 -
State Migration on Flink SQL
Flink SQL 作为实时数仓建设中重要的工具,能够帮助用户快速开发流式任务,支持实时数据处理的场景和需求,本文将分享 SQL 作业迭代中状态的保持——状态迁移相关的现状、问题解决及未来规划。原创 2023-02-02 16:22:09 · 166 阅读 · 0 评论 -
年终学习大礼包|云原生大数据知识地图
云原生计算与 DataFun 联合出品了云原生大数据知识地图,从理念概述、架构介绍、功能详述、场景及价值等方面对云原生大数据进行了详细解读。原创 2023-01-18 17:50:50 · 149 阅读 · 0 评论 -
从100w核到450w核:字节跳动超大规模云原生离线训练实践
字节跳动离线训练发展的三个阶段和关键节点,以及云原生离线训练中非常重要的两个部分——计算调度和数据编排,最后将结合前两部分分享字节跳动在实践中沉淀的4个案例。原创 2022-12-29 16:17:31 · 342 阅读 · 0 评论 -
大象在云端起舞:后 Hadoop 时代的字节跳动云原生计算平台
火山引擎云原生计算团队技术负责人李亚坤接受专访,详细介绍了过去五年字节跳动在高速发展中历炼出的技术体系与团队,以及当下大数据云原生化的趋势。转载 2022-11-25 01:06:37 · 256 阅读 · 0 评论 -
字节跳动 YARN 云原生化演进实践
本文整理自字节跳动基础架构工程师邵凯阳、林友权在 2022 Hadoop Meetup 上的演讲,文章主要从演进背景、解决方案、上线收益和未来规划四个方面介绍了字节跳动 YARN 云原生化演进实践。原创 2022-11-17 13:58:43 · 494 阅读 · 0 评论 -
基于 Zeppelin 的 Flink/Spark 云原生实践
本文整理自火山引擎基础架构研发工程师陶克路、王正在 ApacheCon Asia 2022 上的演讲。文章主要介绍了 Apache Zeppelin 支持 Flink 和 Spark 云原生实践。原创 2022-11-10 21:12:40 · 2878 阅读 · 1 评论 -
字节跳动流式数仓和实时服务分析的思考与实践
本文整理自火山引擎云原生实时数仓技术专家汪建锋在 DataFun 现代数据栈在线峰会上的演讲,主要介绍字节跳动流式数仓和实时服务分析的思考与实践。原创 2022-10-27 16:05:22 · 1745 阅读 · 0 评论 -
Cloud Shuffle Service 在字节跳动 Spark 场景的应用实践
本文整理自字节跳动基础架构的大数据开发工程师魏中佳在 ApacheCon Aisa 2022 「大数据」议题下的演讲,主要介绍 Cloud Shuffle Service(CSS) 在字节跳动 Spark 场景下的设计与实现。原创 2022-10-20 23:03:04 · 510 阅读 · 0 评论 -
打造通用缓存层:字节跳动 Flink StateBackend 性能提升之路
StateBackend 作为 Flink 向上提供 State 能力的基石,其性能会严重影响任务的吞吐。本次分享主要介绍在字节跳动内部通过为 StateBackend 提供通用缓存层,来提高性能的相关优化。原创 2022-09-28 23:20:57 · 847 阅读 · 0 评论 -
Flink OLAP 助力 ByteHTAP 亮相数据库顶会 VLDB
复杂查询 QPS 破百,字节跳动 Flink OLAP 助力 ByteHTAP 亮相数据库顶会 VLDB。原创 2022-09-28 23:11:16 · 708 阅读 · 0 评论 -
Flink 流批一体在字节跳动的探索与实践
本文整理自火山引擎云原生计算产品经理付振雄在全球互联网架构大会(GIAC)上的演讲。原创 2022-09-28 23:07:08 · 892 阅读 · 0 评论 -
字节跳动 Flink 基于 Slot 的资源管理实践
Slot 是 Flink 集群管理资源的最小单位,也是 Flink 作业申请和释放资源的单位。本文主要介绍字节跳动 Flink 基于 Slot 的资源管理、作业资源申请以及释放流程。原创 2022-09-28 17:11:44 · 911 阅读 · 0 评论 -
字节跳动开源自研 Shuffle 框架——Cloud Shuffle Service
大数据计算引擎常用的 Pull-Based Sort Shuffle 方案实现机制存在缺陷,在大规模生产环境下经常因为 Shuffle 问题影响作业稳定性。在此背景下,字节跳动自研了 Cloud Shuffle Service,提供比原生方案稳定性更好、性能更高、更弹性的数据 Shuffle 能力,同时也为存算分离/在离线混部等场景提供了 Remote Shuffle 解决方案。原创 2022-09-28 17:04:26 · 287 阅读 · 0 评论 -
9年演进史:字节跳动 10EB 级大数据存储实战
作为目前字节跳动内部存储量及集群规模最大的分布式存储系统,HDFS 一直伴随着字节跳动关键业务的飞速扩张而快速发展。本文从 HDFS 发展历程入手,介绍发展路径上的重大挑战及解决方案。转载 2022-09-28 16:55:36 · 604 阅读 · 0 评论 -
5年迭代5次,抖音推荐系统演进历程
2021 年,字节跳动旗下产品总 MAU 已超过 19 亿。在以抖音、今日头条、西瓜视频等为代表的产品业务背景下,强大的推荐系统显得尤为重要。Flink 提供了非常强大的 SQL 模块和有状态计算模块。目前在字节推荐场景,实时简单计数特征、窗口计数特征、序列特征已经完全迁移到 Flink SQL 方案上。结合 Flink SQL 和 Flink 有状态计算能力,我们正在构建下一代通用的基础特征计算统一架构,期望可以高效支持常用有状态、无状态基础特征的生产。转载 2022-09-27 18:51:20 · 730 阅读 · 0 评论 -
字节跳动 Flink 状态查询实践与优化
本篇文章介绍了字节跳动在 Flink 状态查询方面所进行的优化,解决了查询 Flink 任务状态时开发成本高及无法查询状态元信息等问题,提出了 State Query on Flink SQL 的解决方案,让用户使用 Flink Batch SQL 就可以快速查询 Flink 任务状态。原创 2022-09-27 18:26:31 · 350 阅读 · 0 评论 -
字节跳动10万节点 HDFS 集群多机房架构演进之路
本文介绍了字节跳动在维护 HDFS 服务时,采用横跨多个机房的联邦大集群部署模式的业务背景与设计演进。原创 2022-09-27 16:24:23 · 490 阅读 · 0 评论 -
字节跳动 Flink 单点恢复功能及 Regional CheckPoint 优化实践
本文介绍了字节跳动在实时计算方面进行的两个实践优化,一是在 Network 层的单点恢复的功能,二是 Checkpoint 层的 Regional Checkpoint。原创 2022-09-27 15:29:58 · 393 阅读 · 0 评论 -
字节跳动使用 Flink State 的经验分享
本文主要分享字节跳动在使用 Flink State 上的实践经验,内容包括 Flink State 相关实践以及部分字节内部在引擎上的优化,希望可以给 Flink 用户的开发及调优提供一些借鉴意义。原创 2022-09-26 18:54:57 · 292 阅读 · 0 评论 -
字节跳动的 Flink OLAP 作业调度和查询执行优化实践
HTAP 是混合 OLTP 和 OLAP 的计算系统,在字节采用 Flink 作为 OLAP 执行引擎。本文将介绍 Flink 在支持 OLAP 需求时遇到的作业调度与查询执行的挑战及优化。原创 2022-09-22 22:45:30 · 585 阅读 · 0 评论 -
亿级用户背后的字节跳动云原生计算最佳实践
字节跳动的大数据业务和底层运算能力近年来发展迅速,本文介绍了字节跳动在流式计算和批式计算方面的重大演进以及最佳实践。原创 2022-09-22 22:06:54 · 253 阅读 · 0 评论