文献阅读：Disaggregated Data Centers: Challenges and Trade - offs

南山小宛

已于 2024-09-02 16:46:17 修改

阅读量1k

点赞数 21

分类专栏：内存解耦合文章标签：分布式 python

于 2024-09-02 16:42:32 首次发布

本文链接：https://blog.csdn.net/y2515032807/article/details/141818089

版权

内存解耦合专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Lin R , Cheng Y , Andrade M D ,et al.Disaggregated Data Centers: Challenges and Trade-offs[J].IEEE Communications Magazine, 2020, 58(2):20-26.DOI:10.1109/MCOM.001.1900612.

分散式数据中心：挑战与权衡

《Disaggregated Data Centers: Challenges and Trade - offs》是一篇探讨分解式数据中心（DCs）的论文，分析了其面临的挑战和权衡因素，具体内容如下：

引言

数据中心资源利用率低，资源分配固定导致资源浪费和成本增加。
资源分解是提高资源利用率的一种可能方式，分为部分分解和完全分解两种。

资源分解

专注于机架规模的分解式数据中心，提出了两种完全分解的架构选项，一种是全光互连，另一种是混合互连。
硬件变化对虚拟机应透明，由管理程序负责资源分配和监控，同时要考虑资源刀片的OI带宽限制和故障影响。

资源间通信

网络要求：存储和NIC相关通信的延迟和带宽要求较低，可采用商业可用的方法；CPU - 内存通信要求严格，当前商业产品难以支持。
光学传输：是满足资源通信关键要求的可能解决方案，分为IM / DD系统和相干系统，重点关注IM / DD传输系统，通过复用技术提高互连的每光纤容量，VCSELs和SiP集成电路技术是 transceiver的主要候选者，同时需最小化延迟。
光学交换技术：电子开关在处理多资源切片同时通信时存在容量和扩展性限制，光学开关更适合分解式DCs，分为慢重构时间和快重构时间的光学开关，主要考虑支持光电路交换的慢切换技术。

性能评估

使用定制的Python模拟器进行评估，CPU - 内存资源通信通过光电路交换进行，其他类型通信由电子开关支持。
该模拟器可以模拟不同的资源分解级别、光传输和交换技术以及工作负载。模拟器考虑了资源间通信的延迟、带宽和可靠性要求，并根据这些要求评估了虚拟机（VM）请求的阻塞概率和资源利用率和收入差异。
结果表明OI带宽是FD场景的瓶颈，提高OI带宽可改善资源利用率和增加收入，但要优于其他场景，带宽需高于800Gb/s。

结论

分解式数据中心有望提高资源利用率，但资源间通信能力不能假设为无限，当前光通信技术的带宽不足可能降低完全分解式DCs的优势，需要推进更高带宽的短距离光传输技术的发展，同时还需进一步研究最优资源分配方案和功能分解带来的潜在能量减少。

背景

一方面。随着全球数据中心中安装的云计算工作负载越来越多，DC 运营商必须增加包括计算、存储和网络在内的 DC 资源的总容量。另一方面，DCs 中中央处理器（CPUs）和内存的利用率相对较低。现代 DCs 中资源利用率低可能与运行应用程序的资源使用多样性与 DCs 中集成服务器中集成的固定资源量之间的不匹配有关，存在着“资源搁浅”现象（也就是说，一个服务器用完了一种资源，即使还有大量其他类型的资源可用，也无法执行更多的工作负载，同样，服务器中一种资源的故障会导致整个服务器的故障，这会显著影响资源的可用性）。

资源分解是避免 DCs 中资源搁浅的一种可能方式。与集成服务器不同，分解意味着不同类型的资源相互解耦，因此在部署新应用程序或服务时可以单独分配。由于资源的独立性，可以预期分解式 DCs 中会有更好的利用率和可用性。根据资源分解的程度，我们进一步将分解式 DCs 分为部分分解和完全分解的 DCs。

资源分解

DC 分解的规模有所不同，范围从机架级（在一个机架内）、集群级（在一个集群内的各个机架之间）到 DC 级（在一个 DC 内的多个集群之间）。机架级规模由于距离较短，相对容易实现资源通信的低传播延迟和高容量。本文专注于机架级分解，并提出了两种完全分解的 DC 架构的候选方案。

架构

图 1 和图 2 展示了中采用的两种支持机架级完全分解的 DC 的候选架构。在每个架构中，不同类型的资源完全相互解耦。与包含所有类型资源的刀片式服务器（server blades）不同，资源刀片（resource blades）仅包括一种特定类型，并且它们通过机架中的光接口（OIs）互连。根据机架中使用的互连类型，这两种架构可以分为具有全光（图 1）或混合（图 2）互连的架构。

在全光互连的情况下，每个资源刀片都需要一个OI，并且所有刀片都通过光链路连接到光互连。所有类型的资源通信（包括 CPU-内存、内存-存储、内存-NIC 等），曾经在集成服务器的主板总线上进行，现在都在资源刀片之间建立的外部光路径上进行。这意味着资源刀片上的 OIs 必须满足资源间通信的延迟和带宽的关键要求，以避免运行应用程序的性能下降。在图 1 中，所有用于全光互连的 OIs 以及互连本身都显示为蓝色，表示它们支持所有类型资源通信的能力，特别是最需要带宽的通信（即 CPU - 内存），其中新一代高性能内存通常需要高于 400 Gb/s 的峰值带宽。

图 2 中所示的第二种架构包括机架中的两种互连：1）专用于 CPU - 内存通信的超高带宽光互连；2）用于通常对性能要求不如 CPU - 内存通信严格的资源通信的电子交换机。对于 CPU 和内存刀片，需要两种类型的 OIs，即服务于光互连的超高带宽 OI（> 400 Gb/s，显示为蓝色）和连接到电子交换机的常规 OI（例如，小型可插拔 SFP，提供的传输容量远低于 400 Gb/s）。另一方面，存储和 NIC 刀片只能配备常规 OI，相关资源通信仅由电子交换机处理。另外，电子交换机端口也需要常规 OI（图 1 和图 2 中未显示）用于光 - 电信号转换。

这两种架构的主要区别在于第二种架构中额外的常规光接口（OIs）和电子交换机。第一种架构中的布线更简单，因为每个资源刀片可能只有一根光纤。然而，由于来自/去往资源刀片的每一次通信都由单个 OI 处理，通信协调更加复杂。（带宽争用）。例如，应该在内存刀片上付出更多的注意，以确保超高带宽的 CPU - 内存通信不会一直占用 OI 带宽，避免内存 - 存储和内存 - NIC 通信得不到服务。在混合架构中，由于为较低带宽资源通信提供了专用连接，资源通信的协调更简单。有标准和商业产品（例如，Mellanox 的 InfiniBand 和远程直接内存访问 RDMA）可以应用于这种架构。

资源管理

在本文中，应用了一种云计算中使用的资源管理技术。虚拟机（VMs）在当前的数据中心中被广泛使用，这使得数据中心运营商和用户能够使用任何适合其应用的操作系统，而无需考虑硬件设置的细节。管理程序用于监控和管理在集成服务器上运行的虚拟机。此外，管理程序还会将集成服务器中请求的资源分配给新传入的虚拟机请求。

机架中的硬件更改应该对 VMs 透明。否则，修改现有应用程序将需要巨大的工作量，并且由于 DC 硬件的升级而要求 DC 用户更改其运行的应用程序是不切实际的。在分解式 DCs 中，隐藏所有硬件更改并向 DC 用户使用的 VMs 提供一致的资源抽象是管理程序的工作。图 1 和图 2 展示了一个用于分解式 DCs 的管理程序的示例。管理程序不是在单个集成服务器上运行，而是在资源机架的顶部运行。它可以访问所有资源刀片，并监控每个刀片的资源使用情况。当有新的 VM 请求到来时，管理程序根据机架中所有刀片的当前资源利用率分配资源。请注意，资源刀片的 OI 带宽是有限的。此外，OI 上的任何故障都可能影响完全分解机架中所有运行的 VMs。其他机架 / 集群 / DCs 中的 VM 备份可以解决这个问题，同时最小化额外成本。

资源间通信

目前，大多数关于分解式DCs的工作都假设资源通信的容量是无限的，这是不现实的。本节中，介绍了分解式 DCs 中资源间通信的网络要求。并回顾了最先进的光传输和交换技术，并讨论了它们在分解式 DCs 中使用的优缺点。

资源间通信的网络要求

在机架级分解的 DCs 中，资源之间的通信由光互连或电子交换机执行。对于存储和 NIC 相关的通信，延迟要求通常在微秒级别，带宽要求不超过 10 Gb/s。为了支持这两种类型资源之间的通信，可以使用各种商用方法，例如思科的低延迟以太网交换机（100 Gb/s，<1 ms）、Mellanox 的 InfiniBand 交换机（100 Gb/s，<1 ms）和 H3 Platform 的 PCIe 交换机（≈60Gb/s，<1 ms）。所有这些产品都可以作为图 2 中所示的混合架构中的电子交换机。

另一方面，CPU - 内存通信的要求非常严格。CPU - 内存通信所需的总体带宽高度依赖于 CPU 和内存的性能。它通过 CPU 的字长、内存时钟速度和 CPU 中内存控制器的数量的乘积来计算。对于时钟速度为 2133 MHz 的第四代双倍数据速率（DDR4）内存，给定一个具有 3 个内存控制器的常见 64 位 CPU 处理器，CPU - 内存通信所需的峰值数据速率约为 400 Gb/s。相应的延迟要求是 < 100 ns。在分解式 DCs 中，CPU 刀片上持有的 CPU 处理器 / 核心越多，CPU 刀片的 OI 所需的聚合带宽就越高。对于当前的商业产品来说，支持这种超高带宽互连极具挑战性。

资源通信的光传输

为了满足资源间通信的关键要求，特别是 CPU 和内存之间的通信，由于光传输技术能够提供超高带宽和低延迟，因此被认为是唯一可能的解决方案。光传输可以根据检测技术分为两大类：1）强度调制和直接检测（IM/DD）系统；2）相干系统。虽然相干系统广泛应用于长距离传输，但其高成本和系统复杂性使其对于短距离应用来说难以承受。同时，转发器所需的复杂数字信号处理会导致长延迟，这可能无法满足全功能分解情况下的延迟要求。另一方面，IM/DD 具有系统设置简单的优点，并且能够在 DCs 中提供高带宽。因此，重点关注用于分解式 DCs 的 IM/DD 传输系统。

表 1 列出了 400 Gb/s 及以上的短距离光通信的最先进结果，其中采用了不同的调制格式、复用方法、收发器类型、信号处理技术和前向纠错（FECs），表明了分解式 DCs 中资源通信的可能使能技术。为了实现每比特的低成本和低能耗，每通道的高数据速率是优选的。通过使用最简单的调制格式，如非归零开关键控（NRZ - OOK）和部分响应信号电二进制（EDB），实现了每通道实时传输超过 100 Gb/s。四电平脉冲幅度调制（PAM4）是迈向每通道 100 Gb/s 及以上的高阶调制的主要选择，它可以缓解波特率并实现高带宽效率。

尽管表 1 中列出的最先进的光传输解决方案能够实现每根光纤高达 800 Gb/s 的数据速率，但下一节中的性能评估表明，对于完全资源分解的情况，有效地支持 CPU - 内存通信仍然不足。

资源间通信的光交换技术

在机架级分解的 DCs 中，所有通信都通过不同资源刀片的互连进行。互连节点必须提供足够高的带宽，同时保持最小的延迟。

一个直接的问题是电子交换机是否可以应用于 CPU - 内存通信。有成熟的技术（例如，InfiniBand）来支持对带宽要求适中的资源通信。先进的电子交换机可以提供每个端口 400 Gb/s 的带宽（例如，Cisco Nexus 9316D Switch）和 50 + ns 的延迟（例如，Exablaze FastMux），这似乎满足了 CPU - 内存通信的峰值性能要求。然而，在这种情况下，电子交换机的可扩展性是一个问题，因为它们可能难以满足大量资源同时通信的需求。此外，电子交换机需要光 - 电 - 光（OEO）转换，这会增加额外的延迟和功耗。因此，光交换技术被认为是一种有前途的替代方案，可以满足分解式数据中心中资源间通信的严格要求。

光交换技术可以分为两类：慢切换和快切换。慢切换光交换技术通常基于光电路交换（OCS），它可以提供高带宽和低延迟，但切换时间较长，通常在毫秒到秒的范围内。这使得 OCS 适合于长期的、高带宽的通信，例如存储 - 存储通信或存储 - 计算通信。快切换光交换技术通常基于光分组交换（OPS）或光突发交换（OBS），它可以提供更快的切换时间，通常在纳秒到微秒的范围内。这使得 OPS 和 OBS 适合于短期的、低延迟的通信，例如 CPU - 内存通信或内存 - 内存通信。然而，由于缺乏光存储器，光分组交换的实现受到阻碍。因此，此后我们主要考虑支持分解式数据中心光电路交换的慢切换技术。

性能评估

在本节中，使用一个定制的基于 Python 的模拟器来评估性能。在完全分解的架构中，CPU - 内存资源通信是通过光电路交换进行的，而资源之间的其他类型通信可以由电子交换机支持。当部署虚拟机时，在光开关中建立专用通道。考虑了三种场景，根据资源分解的方法进行分类，且资源总量相同：

1. 集成服务器（IS），一个机架内总共有 32 个刀片（blade，指服务器刀片，一种薄型的服务器模块），每个刀片具有 16 个核心、64GB 内存和 1024GB 存储。

2. 部分分解（PD），32 个计算节点，每个节点具有 16 个核心和 64GB 内存，以及 16 个存储节点，每个节点具有 2048GB 存储。

3. 完全分解（FD），16 个 CPU 刀片，每个刀片具有 32 个核心，16 个内存刀片，每个刀片具有 128GB 内存，以及 16 个存储刀片，每个刀片具有 2048GB 存储。

对于完全分解（FD）场景，每个资源刀片都配备了一个光接口（OI），用于支持 CPU - 内存通信的数据速率分别为 400 Gb/s 和 800 Gb/s，分别代表当前和未来的标准化传输容量。在模拟中，我们假设 OI 传输的延迟足够低，并关注容量限制对系统级性能的影响。此外，当在 FD 场景中部署虚拟机（VM）时，考虑了两种类型的 CPU - 内存峰值容量要求，即 200 Gb/s 和 400 Gb/s，这相当于具有双内存控制器的普通内存（DDR3 - 1600 MHz）和高性能内存（DDR4 - 3200 MHz）的带宽。在完全分解的场景中，我们应用首次适应算法来部署 VM 请求。在模拟中，我们假设部署的 VM 会消耗资源刀片上 OI 的相应带宽。在这种情况下，请求可能会由于刀片上资源不足或 OI 上所需带宽不足而被阻塞。作为基准，我们进一步放宽了对 OI 最大带宽的限制，假设 FD 数据中心没有带宽限制。另一方面，在集成服务器场景和部分分解场景中，不需要外部 CPU - 内存通信，OI 的带宽不再是限制。

本文评估并比较了分解式和传统数据中心获得的总虚拟机（VM）收益。具体来说，展示了在考虑的分解式场景（即 PD 和 FD）中运行 VM 与 IS 场景之间的收益差异，从运营商的角度反映了收益的增加或损失。根据 Google VM 价格，考虑 VM 生命周期内占用的不同类型资源的数量来计算收入。每个场景的收益是所有部署的 VM收益的总和。最后，VM 所需的资源、生命周期和请求到达模式参考。在本文中，我们展示了两种不同的 VM 请求到达率的性能，分别反映低负载和高负载。其他配置（例如，VM 请求的资源和生命周期）保持不变。

图 3 和图 4 显示了 VM 请求阻塞概率和资源利用率。无图案和有图案的条形图分别显示高负载和低负载的情况。两种情况都表现出相似的趋势。OI 带宽对 FD 场景有明显的影响。在 FD DDR3 场景中，400 Gb/s 的性能甚至比 IS 和 PD 的性能更差（即阻塞概率更高）。给定 800 Gb/s 或更高带宽的 OI，FD DDR3 的性能可以比 IS 和 PD 的性能好得多。另一方面，具有 400 Gb/s OI 的 FD DDR4 显示出极高的阻塞概率和低资源利用率。在这种情况下，由于 OI 上的带宽不足，刀片上的大部分资源都无法利用。在 800 Gb/s OI 的情况下，FD DDR4 方案只能实现与 IS 方案类似的性能，略低于 PD 方案。如果 OI 没有带宽限制，则无论使用哪种类型的内存，FD 方案都可以胜过所有其他方案。

图 5 显示了不同工作负载下具有和不具有足够带宽的传统和分解式数据中心之间的收益差异。对于低负载，即使 OI 上有足够的带宽（即 800 Gb/s 及以上的 FD DDR3 和带宽无限的 FD DDR4），功能分解也只能带来略微更好的收入。当增加工作负载时，带宽有限的 FD 场景提供的收入与 IS（400 Gb/s 的 DDR3、800 Gb/s 的 DDR4）相似，甚至可能更差（400 Gb/s 的 DDR4），这意味着完全分解并不总是可取的。但是，如果 OI 上有足够的带宽，FD 场景可以提供明显更高的收入。

可以看出，OI 带宽是 FD 场景的瓶颈。特别是对于 DDR4，即使使用 400 Gb/s 的 OI，由于可用带宽不足，许多 VM 请求也会被阻止，导致刀片上的 CPU 和内存资源使用率非常低。将 OI 带宽增加到 800 Gb/s 可以显著提高刀片上的资源利用率，并增加整体收入。但是，为了超越 IS 和 PD 场景，OI 带宽应该高于 800 Gb/s。

结论

资源分解确实提高了数据中心的资源利用率。然而，最先进技术提供的带宽并不总是足以满足完全分解的数据中心。这需要光通信的进一步发展，以充分发挥完全分解的数据中心的优势。具体来说，需要更高带宽的光传输技术，如多芯光纤、空分复用和波分复用的组合，以及更快切换的光交换技术，如光分组交换和光突发交换。此外，还需要进一步研究最优的资源分配策略和潜在的能量降低方法，以提高分解式数据中心的性能和可持续性。