目录
前言
何为液冷服务器?
通过液体冷热交换散热的服务器 。通过液冷技术,用液体取代空气作为冷媒,为发热部件进行换热、带走热量。将液体注入服务器,直接或间接的冷热交换带走元器件发热量的一种服务器。从服务器物理形态上区分有:冷板式液冷服务器、全浸没式液冷服务器、喷淋式液冷服务器。
为什么需要液冷?
1.数据中心降低PUE的需求
- 数据中心是能耗大户, 2015年我国数据中心能耗高达1000亿千瓦时,相 当于整个三峡水电站一年的发电量;
- 降低PUE对节能减排将大有裨益;
2.政策导向
- 对数据中心PUE提出明确限制,鼓励液冷技术实施,促进数据中心液冷技术进一步发展;
- 到2023年底,全国数据中心机架规模年均增速保持在20%左右,平均利用率力争提升到60%以上,总算力超过200 EFLOPS,高性能算力占比达到10%。国家枢纽节点算力规模占比超过70%。新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。国家枢纽节点内数据中心端到端网络单向时延原则上小于20毫秒。
北京:禁止新建和扩建互联网数据服务、信息处理和存储支持服务中的数据中心(PUE 值在1.4 以下的云计算数据中心除外);
上海:新建/改建互联网数据中心PUE值严格控制在1.3/1.4 以下,支持采用整机柜、模块化和液冷等技术提升IT设备能效;
江苏省:根据《江苏省数字经济发展三年行动计划(2021-2023年)》,江苏省将推进数据中心绿色发展,新建大型及以上数据中心PUE值低于1.25。;
浙江省:根据《浙江省全球先进制造业基地建设“十四五”规划》,浙江省将推进数据中心绿色发展,新建大型及以上数据中心PUE值低于1.25。
3.芯片热功率已经达到风冷散热极限
- 芯片热功率已经到了风冷处理的极限(350W~400W);
- 下一代CPU达到500W、700W, OCP OAM2.0规划至1000W。
4.液冷比热远大于空气
- 液体的比热远远大于空气,有利于提高传热效率,降低传热耗能。
液冷VS风冷,区别在哪?
1.液冷服务器跟风冷服务器的区别
- 左上角是传统风冷图,服务器前面板从机房冷通道吸入冷空气将置换的热量从后面板排除至热通道;
- 右下角是冷板式液冷服务器示意图,图中可以看出低温液体从入水口进入,经过在服务器内部环流置换热量在由出水口排出。高温液体重新流入冷却装置进行冷却。
2.液冷数据中心跟风冷数据中心的区别
- 上部分是液冷数据中心示意图,通过冷却塔对水进行冷却,在由CDU将冷水与液体进行降温,降温后的液体通过入水口流入tank中对内置的服务器进行性散热。最后液体通过出水口回流至CDU重新进行冷却;
- 下部分是传统数据中心示意图,可以看到,主要就是通过精密空调进行冷热置换。通过空调外机将机房内热气抽出。
液冷技术详情
冷板式液冷
1.优势
- 节能性更优:整体机房空调系统能耗降低70%;服务器风扇功耗降低70%~80%;液冷系统可实现全年自然冷却,PUE<1.1,整体机房风液混合冷却系统PUE<1.2;
- 器件可靠性更高:CPU满载运行核温约40-50℃,比风冷降低约 30℃;服务器系统温度比风冷降低约 20℃;
- 性能更优:CPU和内存工作温度大幅降低,可实现超频运行,计算机群性能可提高5%;
- 噪声更低:液冷散热部分水循环噪音极低,风冷部分风扇转速降低,噪音减小,降低约30dB,满载运行噪音<60dB;
- 功率密度提升:单机柜功率密度可达25kW以上,相比风冷散热方式大幅提升。
2.冷板式整机示意图
3.风冷服务器改造冷板式
3.1 技术难点
- 各个环节是存在泄露风险;
- 改造完成后综合换热性能是否达标;
- 冷板进、入水管两侧流量的平衡;
- 服务器内部存在冰冻风险;
- 液体的离子浓度;
- 不同厂商服务器所涉及的技术。
3.2 改造过程
3.2.1 收集设备信息
- 收集服务器发热元器件的资料;
- 确定需要做强化散热设计的发热元器件如:CPU、GPU等等;
- 相同型号服务器需要几台做为测试机。
3.2.2 散热设计及测试
- 去掉风扇,重新定制化散热器;
- 可能需安装风扇模拟软件;
- 对订制后的机器进行仿真测试。
3.2.3 样机测试
- 改造后的机器,进行实际生产环境测试。确保对不同应用软件使用的可靠性。
3.2.4 批量改造
- 对相同型号的服务器批量改造;
- 对不同应用软件的使用进行测试。
4. 观点
目前使用全冷冷板的数据中心pue最低降低到1.05以下。国内液冷做的最好的曙光、浪潮、阿里。现在冷板改造已经相当成熟。
浸没式液冷
1.优势
- 节能性更加极致:冷媒与发热器件直接接触,换热效率更高,且可实现全面自然冷却,系统PUE<1.05;
- 器件散热更加均匀:采用全浸没方式,服务器内部温度场更加均匀,器件可靠性更有保障;
- 无泄漏风险:采用绝缘、环保的冷却液体,即使发生泄露对基础设施硬件和外界环境均无任何风险;
- 噪声更低:服务器全部元器件均可通过液冷方式散热,内部实现无风扇设计,满载运行噪音<45dB;
- 功率密度大幅提升:单机柜功率密度可达60kW以上。
2.单相浸没式(非相变)
- 在单相浸没式液冷中,电子氟化液保持液体状态。电子部件直接浸没在电介质液体中,液体置于密封但易于触及的容器中,热量从电子部件传递到液体中。通常使用循环泵将经过加热的电子氟化液流到热交换器,在热交换器中冷却并循环回到容器中;
- 冷却液在循环散热过程中始终维持液态,不发生相变;
- 低温冷却液带走热量后,温度升高,升高的冷却液流动到其它区域后重新冷却完成循环;
- 单相液冷要求冷却液的沸点较高,这样冷却液挥发流失控制相对简单,与IT设备的元器件兼容性比较好,不需要频繁补充冷却液;但相对于两相液冷其散热效率要低一些。
3.两相浸没式(相变)
- 在两相浸没式液冷中,通过电子氟化液的沸腾及冷凝过程,电子部件直接浸没在容器中的电介质液体中,该容器密封但易于操作。在该容器内,热量从电子部件传递到液体中,并引起液体沸腾产生蒸汽。蒸汽在容器内的热交换器(冷凝器)上冷凝,将热量传递给在数据中心中循环流动的设施冷却水;
- 冷却液在循环散热过程中发生了相变,冷却液带走电子元件热量后发生相变气化,气态冷却液被其它设备冷凝重新变成液态;
- 两相液冷由于冷却液发生了相变,所以传热效率很高,不利的是这个相变过程中,冷却液蒸发为气态过程中会发生逃逸,所以对容器的密封性有一定的要求;但是又不能太密封,防止冷却系统中断出现事故,所以需要设置一定的安全设施。
4.观点
浸没式液冷数据中心,改造比冷板式简单。技术十分成熟。 单相浸没(液体每月损耗较小)、两相浸没(液体每月损耗为5%)。
喷淋式液冷(国内应用较少)
1.简介
喷淋式液冷是一种将液体(油或其他液体作为散热介质)直接喷淋或雾化到散热对象上来吸收热量的散热方法。据可查资料显示,目前喷淋式液冷技术在海外企业中发展较快,国内实践中的应用相对较少。
国内目前主流液冷为冷板式 跟浸没式。喷淋式正处于突破性阶段应用较少。
2.相关原理
- 喷淋冷却技术主要包括向IT设备喷洒冷却液的布液装置(包括特制的喷淋服务器机箱 [3] ,特制的液冷机柜), 冷量分配单元(CDU),室外散热器;
- 喷淋服务器机箱:与普通服务器机箱相比,主要特点是取消了风扇的进出风口,改为进液口与回液口。服务器机箱有密封处理,防止冷却液泄露;机箱顶板改为喷淋板,用于向发热器件喷洒绝缘冷却液;
- 液冷机柜:液冷机柜内部设有进液管与回液管,进液管向IT设备供应冷却液,回液管回收被加热后的冷却液;
- 冷量分配单元:内部主要包括泵,过滤器,换热器,其中,泵的作用是驱动冷却液流动,向IT设备内不间断输送冷却液;过滤器作用是滤除冷却液内部的微米级杂质,防止固体杂质在IT设备上沉积; 换热器作用是将冷却液的热量与二次循环回路中的冷媒(如水,乙二醇)进行热交换;
- 室外散热器:布置于室外的散热器将二次循环回路中的冷媒与室外空气进行热交换,将热量散失到外部大气,散热器通常使用空调行业常用的管翅式换热器,工业常用的板翅式换热器,以及冷水塔。管翅式换热器,板翅式换热器,冷水塔能够最大程度利用自然冷源-空气,无需采用能效较低的压缩制冷方式,因此较节能。
三大液冷技术对比
综合来说浸没式液冷最优,冷板式改造成本相较于风冷较高,改造中困难还是比较大的。