技术抉择:阿里云13年后重构全部核心调度系统

在阿里云十三年的发展历史上,重新设计调度系统算得上是一个重要的技术抉择。

云计算是一个庞大的技术工程。2009 年,阿里云从 0 到 1 自建国产云计算系统“飞天”,为了确保对每一行代码都有控制力,阿里云选择了一条艰难的道路:自主研发。伏羲调度系统是“飞天”三大服务之一。调度系统作为云计算的核心技术,无论是对亚马逊、谷歌还是其他云计算企业来说,都是他们最保守的秘密,而伏羲凭借自研与优异的性能,与 YARN、Mesos 等技术一起成为了调度系统的典型代表之一。

这么多年发展下来,很多人认为阿里云战略上最与众不同之处,就是坚持自研核心技术。作为全球集群规模最大的云计算平台之一,阿里云在技术已然成熟、稳定运行着数量庞大的业务情况下,选择了用云原生的标准重新设计和构建云计算的调度系统,并在 2021 年“双十一”大促之前将全球几十个数据中心、数百万容器、数千万核的资源统统搬到了新的调度系统之上。

阿里云为什么在十三年之后重构调度系统?在不影响业务运行的情况下,阿里云是如何更换“引擎”的?这种技术思路给我们带来什么启示?新调度系统有开源计划吗?InfoQ 采访了几位调度系统负责人,为大家一一解惑。

发展十三年,成绩斐然的老调度系统

资源调度系统可谓是云计算的大脑,负责在众多集群内的机器里,选择一台最合适的,以最佳的资源使用姿势,做到最少的相互干扰来运行用户提交的计算作业。云计算最终目的之一是降低 IT 成本,最大限度地利用单台 PC 的 CPU 处理能力,而调度系统恰恰就决定着基础设施的利用率和整体运作成本。

无论是亚马逊、谷歌、微软还是阿里,某种程度上,“大脑”代表的是企业技术竞争力。核心技术的重要性不言而喻,像谷歌的调度系统 Borg,在很长一段时间内,一直是谷歌最保守的秘密之一。

艰难起步,从 0 到 1 自研伏羲调度系统

2008 年,阿里巴巴确定了“云计算”战略,决定自主研发大规模分布式计算操作系统“飞天”,目标是将几千台乃至上万台普通 PC 服务器连接到一起,使其像一台多功能的超级计算机,实现超强计算性能。

2009 年 2 月,飞天团队在北京写下了第一行代码,“飞天”系统也从此成为阿里云的奠基技术平台。伏羲调度系统是十年前飞天成立时创建的三大服务之一,另两个是飞天分布式存储盘古和分布式计算 MaxCompute。

2011 年 7 月,阿里云作为中国第一个公有云正式对外开放。这之后的十多年里,伏羲能调度的单集群规模,也从最初的几百台物理机,发展到了 10 万台机器。我们知道,规模每放大十倍,就意味着很多架构设计点都需要重新调整,当横向扩展遭遇不可逾越的瓶颈,就代表着系统重构的开始,伏羲就因此经历了两次重构。

2013 年,伏羲在飞天“5K”项目中对系统架构进行了第一次大重构。“5K”顾名思义,就是能让调度系统支持单集群 5000 节点,并解决大规模单集群下的性能、利用率、容错等问题。

不断扩大单集群的规模,到现在依然是业界不同调度系统在做的事情。

如果依靠早期的 Hadoop 开源调度器技术,以当时的实践经验来看,并不是容易的事情,因此伏羲团队选择了架构和代码都是自己构建的自研方式。这个项目,在阿里云历史上也是一次非常有里程碑意义的“攻坚战”。

(阿里飞天 5K 项目纪念碑)

随后历经一年半时间,阿里巴巴和蚂蚁金服完成“登月计划”,将所有数据存储、计算任务全部迁移至飞天平台。在 2015 年 Sort Benchmark 排序竞赛中,飞天用 377 秒完成 100TB 的数据排序,打破四项世界纪录。随着阿里云的业务需求变化,伏羲的内涵也在不断扩大。最开始是作为一款对标开源 YARN 的单一资源调度器,而后扩展成了覆盖数据调度、资源调度、计算调度、单机调度等的核心调度系统,伏羲也于 2019 年经历了第二次重构,并将单集群规模扩展到了十万台。

双调度系统混部实践

伏羲是负责阿里离线业务的调度系统,而于 2015 年正式立项的 ASI 调度器则支撑着阿里搜索、电商等庞大的在线业务。在线调度历史也比较悠久࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值