《Cloud Native Data Center Network》读书笔记-2

第二章第一小节 Clos拓扑介绍

众所周知,在过去的几年里,数据中心在很短的时间内迅速发展,虚拟化、云(私有云、公有云、混合云)、大数据、SDN等也随之成为热点技术。但不论是虚拟化、云计算或是SDN,有一点需要明确,网络数据报文最终都是在物理网络上传输的。物理网络的特性,例如带宽、时延、扩展性等,都会对虚拟网络的性能和功能产生很大影响,所以理解物理网络是最终理解虚拟网络的前提。

网络架构是网络设计的基础问题,升级或者改动网络架构带来的风险和成本是巨大的,因此在架设数据中心之初,网络架构的选择和设计尤其需要谨慎。当前,数据中心物理网络架构已经从传统的三层网络架构演进至基于Clos架构的两层Spine-Leaf架构。

Clos架构时贝尔实验室查尔斯.克洛斯博士在《无阻塞交换网络研究》论文中提出的,这种架构被广泛应用于TDM(时分复用)网络。为纪念这一重大成果,便以他的名字Clos命名这一架构。
在这里插入图片描述图2-1 一个通用的Clos拓扑结构的说明
如图2-1是一个典型的二层Clos架构,Spine(脊)层和Leaf(叶)层,通常成为Spine-Leaf(叶脊)拓扑结构。每个Lef节点连接到每个Spine节点,Leaf节点连接服务器,Leaf节点通常又称为Tor。Leaf节点和Spine节点可以是同一类型交换机。任何两个服务器之间都有超过两条的链路带宽,形成高容量的网络架构。在Clos拓扑中,所有的功能都被推到网络的边缘、Leaf和服务器本身,而不是由中心提供。增加更多的Leaf和服务器来增加网络支持的工作量,Spine只被用来缩放边缘之间的可用带宽。
在这里插入图片描述
图2-2 经典三层Clos拓扑
图2-2是维基百科中可以查到的经典的三层Clos拓扑架构。

我们可以使用Clos拓扑,使用简单的固定形态交换机来构建非常大的包交换网络。随之而来的新的拓扑结构和经济结构使一切都变得更加先进。传统得接入-汇聚-核心网络的一个基本限制是一个节点只支持两个聚合交换机进行互备。而Clos架构不再使用STP,而是使用路由方式。桥接及交换被使用在边缘节点,即Leaf交换机和服务器之间。同一机柜,同一网段通过交换方式;通过VxLAN实现跨机柜跨网段的二层交换连接。

在Clos拓扑中,交换机的收敛比为下行与上行带宽之比,对于1:1收敛比也被称为非阻塞网络。如果 Spine 和 Leaf 都是 n 端口交换机,那 CLOS 拓扑支持的最大服务器数量:n*n/2。如果n=64 时,则支持 2048 台服务器,如果n=128 时,支持 8192 台服务器。对于所需的交换机数量(假设无阻塞网络):n + n/2,如果n 台 leaf,n/2 台 spine。假如n=64 时,需要 96 台交换机
在这里插入图片描述
图2-3 用四端口交换机说明Clos数学
ISL(inter-switch)交换机间链路,对于使用更高上行链路的原因为:1、使用更少的Spine交换机来支持相同的收敛比;2、显著降低了布线的成本,减少了他们需要管理的交换机的数量;3、任何一条互连链路被单个大象流打爆的概率更低。而一些数据中心运营商对上行和下行链接使用相同的、相对较低的链路速度的原因为:1、允许构建更大的网络;2、提供更好的负载平衡;3、可使故障域变小。

但实际上,考虑到制冷、机柜尺寸、服务器封装、交换机芯片等方面的原因,以上的理论并不能原封不动落实到实际的数据中心中。受电源功率限制,单个机柜一般不超过20台服务器。考虑到散热能力,这个限制可能会更 小。同样实际中很少需要无阻塞网络,Spine 和 Leaf 也使用不同类似的设备。商业芯片厂商一般会 提供配套的 Spine 和 Leaf 交换芯片,例如 Broadcom 的 Trident 和 Tomahawk 系列。

对于Spine节点故障将不会带来灾难,因为如果有16台脊设备,坏掉一台也就影响1/16的流量,而对于传统网络,就会损失一半的流量。单一链路的故障,也只会影响某一台Leaf和Spine设备的流量。路由替代交换后,使得Clos架构消除了系统故障的风险,而传统架构是无法消除的(比如全网网络风暴)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
图2-5 带有四端口交换机的三层关闭拓扑结构
图2-5给我们展示两种三级Clos架构。其中图b:Super Spine和Spine是同一台设备,它们之间的互联是在交换芯片完成。Facebook使用这种架构。图c:第三层级的Super Spine都是独立设备,Spine和Leaf组成POD,再和上面的Super Spine互联。微软和AWS使用该架构。

在这种三级Clos架构服务器和交换机数量计算方法为:支持最大服务器数量:nnn/4,如果n=64,则支持65536台服务器;如果n=128,则支持524288台服务器;网络中所需交换机数量计算公司为:n+n*n。

比较上面两种模式,其中模型(b)中,从任何一个Leaf节点到任何其他Leaf节点的路径比在模型©中要均匀得多。从一个POD中的任何一个服务器到同一个POD中的另一个服务器平均有三跳,模型©会有五跳到另一个POD中的另一个服务器。所以有两个模型中,会存在明显不同的延迟。因此,这些模型服务于不同的工作负载需求。如果倾向于运行单一应用程序的数据中心,如Facebook使用模型(b),倾向于使用虚拟机箱模型。另一方面,操作云且需要定位客户实例的数据中心运营商倾向于使用POD模型,也就是模型©。

当数据中心被完整建设时,虚拟机箱架构和POD(模型b和模型c)都为给定的容量使用相同数量的交换机总数。那么在物理设备的电缆连接完毕后,数据中心运营商更愿意添加新的节点或链接并替换故障单元,但他们不愿意将现有的链接从当前位置恢复到另一个链接。在虚拟机箱模型中,您从虚拟机箱内最小数量的Super Spine和Spine交换机开始,以构建网络。在POD模型中,如果大部分通讯被限制在POD内,您可以从更少的Super Spine交换机开始。假设32端口100GbE交换机,可以使用5个Leaf交换机(假设每个机架40个服务器)和5个Spine交换机为200个服务器集群构建POD拓扑,假设总共10个交换机的收敛比为2:1(每个上行端口有两个面向服务器的端口)。在虚拟机箱模型中,您需要5个虚拟机箱,每个机箱有一个Spine和5个Super Spine交换机,总共(5个+1)×6+5交换机=41交换机。因此,大多数数据中心操作员都倾向于使用POD模型来构建数据中心。当数据中心选择器有一个非常明确的扩展计划,并且知道不会浪费前期投资时,通常会使用虚拟机箱模型。

现在我们来再定义一下Clos架构。在Clos架构下,设备类型单一化,故障类型更加清晰。从少数大型设备变成数量多的小型设备,出现故障,直接拉出替换,而不用化大量实践进行故障排查,以前看重的是设备的新特性,现在看重的是遇到故障时的网络弹性。固定形式的交换机需要进行大量电缆的管理,这在数据中心网络建设中是很常见的。固定形式交换机的大型网络也简化了库存管理。这种简化的库存是为服务器切换到标准的Intel/Linux模型的一个重要原因,管理便捷及经济型得以体现。固定形式交换机,就不再可能手动配置网络。网络自动化成为一种必备的能力,需要让数据中心网络变得更加智能。

对于Clos架构的实践案例,首先看的是交换机之间使用多链路。
在这里插入图片描述
图2-6 说明使用多个链接的问题
传统网络经常会在设备间使用多条链路,通过捆绑技术,实现带宽的增加。在Spine和Leaf之间增加链路,通过链路捆绑的方式代替增加Spine呢?如图2-6所示,如果使用多链路会导致流量负载错误,不同的路由协议也会导致问题,所以不建议以这种方式替代增加节点。那如果将部分Spine和外部路由器对接会有什么问题呢?如果Spine和外部流量缺失,会导致流量拥塞,同时也改变了流量模型。再就是如果使用机箱式交换机作为Spine,从而将三层架构改为二层架构。那随着网络规模扩大,需要考虑成本和故障,而且二层网络比三层网络保护更少。

同时,机箱式交换机故障处理复杂,不同类型交换机的出现使得库存管理变得复杂。况且,现在市面上已经有支持更大规模端口的单交换机推出,如128端口,所以完全没必要使用机箱式交换机。

最后,我们再看下主机接入的模式,在现代数据中心中,具有一个或两个网络接口的主机是最常见的。服务器可以通过单个附加点到单个Leaf连接到网络,或者是双连接的,如图2-7所示,每个链接到两个不同的Leaf。双连接的nic在企业数据中心中很受欢迎,但在大型数据中心中不使用。双连接的主要原因是,如果Leaf由于计划中的维护或故障而停机,操作员负担不起失去单架服务器的损失。对于较小的数据中心,通常都是这样。
在这里插入图片描述
图2-7 双连接主机模型
当主机双连接时,一些操作员选择仅在活动待机模式下使用它们;也就是说,一次只有一个链接活动。在这种情况下,操作员只关心确保链路故障不会切断服务器和网络。但大多数操作员更喜欢使用这两个链接。图2-7(a)中MLAG这个协议提供了一个方式,让主机认为它是连接到一个带有绑定(或端口通道)的单个交换机上的。当MLAG与以太网VPN(EVPN)等网络虚拟化技术一起使用时,连接主机的两个Leaf之间的链接可能就不存在,如图2-7(b)所示。第三种模型是使用来自主机的路由,以在转发流量中使用这两个链路。如图2-7©所示。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

竹林子的摩卡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值