智算中心学习报告

文章目录

一、引言

二、智算中心概述

1. 智算中心的定义与功能

2. 智算中心的发展历程与现状分析

3. 智算中心的关键技术组成

a. 新互联

b. 新算效

c. 新存储

d. 新平台

e. 新节能

4. 智算中心与其他算力中心的区别

5. 美国智算中心

6. 全球算力对比

7. 我国智算中心一览

a. 政府主导

b. 企业主导​编辑

三、AI对智算中心的影响

1. AI技术发展现状

1. 机器学习

2. 深度学习

3. 自然语言处理

4. 计算机视觉

5.数据分析和挖掘

6.  智能算力应用层面发展现状

2. AI技术对智算中心的算力需求

3. AI技术在智算中心的基础应用

1. 元宇宙

2. AIGC

3. 数字孪生

4. 边缘智能

四、相关企业

1. 智算中心上下游

2. 智算中心重点关注企业​​​​​​​


一、引言

随着人工智能技术的快速发展和大模型技术的兴起,智算中心正成为支撑这一新时代技术进步的基石。智算中心不仅集中了前沿的计算能力,更是人工智能应用发展的动力源泉。从智慧医疗到智能交通,从金融科技到智能制造,智算中心的影响力遍及各个行业,其在处理大规模数据和复杂计算任务方面的能力成为推动社会进步的关键。

然而,构建和维护一个高效、可靠的智算中心面临着多方面的挑战,包括但不限于算力设备的选择与优化、数据处理效率的提升、系统安全性的确保,以及如何在政策、资金和技术生态等方面进行有效支持与规划。此外,智算中心的网络架构设计、高性能计算网络的建设和管理,以及如何满足日益增长的计算需求,都是亟需解决的问题。

本文将探讨智算中心的关键技术组成,分析智算中心在人工智能技术发展中的作用,讨论智算中心与传统数据中心和超算中心的异同。通过观察国内外智算中心的发展,旨在为智算中心的未来发展趋势提供见解。


二、智算中心概述

1. 智算中心的定义与功能

智算中心可以概括为专注于利用人工智能技术,特别是深度学习和机器学习,处理和分析海量数据的高性能计算中心。它们不仅提供传统的数据存储和处理功能,还集成了为复杂AI模型训练和推理优化的硬件和软件系统。与数据中心和超算中心相比,智算中心更侧重于AI算法的运行效率和计算性能,同时也着重于算法模型的开发和优化。

智算中心将成为智慧时代的基础设施。智算中心之于智慧社会,就像水利、交通之于农业社会,铁公基、电网之于工业社会。随着数字经济占比的不断提升,算力已成为核心生产力。尤其当前大模型、多模态等人工智能技术发展,需要远超以往的强大算力集群来满足。因此,传统产业智能化升级的一个关键,就是要大力发展集约高效、绿色节能、超强算力、多元适配、可持续的智能计算中心,让算力成本更优、智慧化效用更大,更好地支撑智能产业发展。

2. 智算中心的发展历程与现状分析

智算中心,作为支撑人工智能技术发展的关键基础设施,其发展历程紧密跟随着人工智能和大数据技术的进步。从早期的数据处理中心到现代的智能计算中心,智算中心经历了从简单数据存储和管理到复杂的数据分析和智能决策的转变。在这一过程中,硬件的迭代升级(如GPU和TPU的广泛应用)、软件算法的创新(包括机器学习和深度学习算法的发展)、更高效的网络技术等关键因素共同推动了智算中心的能力飞跃。

  1. 硬件的迭代升级:
    智算中心的核心是其处理能力,这在很大程度上取决于使用的计算芯片。随着人工智能和机器学习应用的增长,对高性能计算(HPC)芯片的需求急剧增加。这包括GPU、FPGA、以及专为AI任务设计的ASICs等。

    • 高性能计算芯片: 英伟达AMD英特尔 推动了硬件技术的突破。英伟达的 V100 GPU 相比于前代提供了显著的性能提升,特别是在深度学习训练和推理任务中,这使得复杂的AI模型能在更短的时间内完成训练。
      专用AI芯片: 如 谷歌 的TPU(张量处理单元),专为高效执行机器学习算法而设计,大幅提升了处理速度和能效比。

      AI芯片对比
  2. 软件算法的创新:
    硬件的高性能是基础,但软件和算法的优化同样关键。有效的算法可以减少计算需求,提高数据处理速度,降低能源消耗。

    • 深度学习框架: TensorFlow(2015年发布)和 PyTorch(2016年9月发布)等深度学习框架的不断更新和优化,使得开发复杂的AI模型变得更加容易和高效。
    • 新型算法模型: 新算法和模型的发展,如 生成对抗网络 GANs 2014年6月发布)及 生成式与训练模型 GPT(2018年6月发布)等不仅推动了智算技术的进步,也为解决复杂的计算和分析任务提供了新的可能性。
  3. 更高效的网络技术:
    RDMA和RoCE等技术显著提高了智算中心的整体性能。通过减少数据传输和处理的延迟,优化的网络通信减少了CPU的负担,使得处理器能够更多地专注于执行计算任务,从而提高了系统的效率。

    • RDMA: Remote Direct Memroy Access 允许网络中的计算机直接访问彼此的内存,而无需操作系统参与,这样可以极大地减少数据传输过程中的延迟和CPU负载。这种直接的内存访问机制使得数据可以快速高效地在服务器之间移动,特别适用于需要高速数据传输和低延迟通信的高性能计算环境。

      英伟达:RDMA 如何成为快速网络的推动力

当前,智算中心的发展已进入一个新阶段,在我国,政府对人工智能的重视和大量投资促进了智算中心的快速建设和应用推广。智算中心已成为智能制造、智慧城市、健康医疗等多个领域的重要支撑。同时,随着5G、物联网等新技术的应用,智算中心面临着数据量爆炸性增长的挑战,这要求智算中心不断优化其架构和运营管理,以提高数据处理能力和效率。

然而,智算中心的发展也面临诸多挑战,包括能源消耗、数据安全和隐私保护等问题。因此,未来智算中心的发展需要在提升计算效率、保障数据安全、以及促进可持续发展等方面进行更多的探索和创新。

总体来看,智算中心作为新一代信息技术的重要载体,其发展不仅代表了计算技术的进步,也是推动社会经济发展和技术创新的关键力量。随着技术的不断进步和应用领域的不断拓展,智算中心将在未来的数字经济时代发挥更加重要的作用。

3. 智算中心的关键技术组成

此段节选于 中国移动 《N I C C 新型智算中⼼技术体系⽩⽪书》

当前智算中心主要以单供应方全栈体系构建为主,尚未形成业界统一的设计方案,因此各地智算中心在技术、标准、生态、运营等方面仍面临挑战。
 

结合大模型技术的发展趋势以及对智算中心建设和使用现状的分析,我们认为ChatGPT等预训练大模型的出现,必将带来 AI基础设施的变革,传统的算力堆叠方式已然失效,智算中心需要在互联、算效、存储、平台、节能五大领域进行系统化的重构,才能支撑起大模型对千行百业的革新与改造。为此,中国移动结合自身转型战略和一线客户需求,提出 NICC新型智算中心(New Intelligent Computing Center)。
 

区别于早期建设的智算中心,NICC新型智算中心是以高性能GPU、AI加速卡等集群算力为核心,集约化建设的E级超大规模算力基础设施,具备从硬件设施到软件服务的端到端AI 全栈环境,支撑超大规模、超高复杂度的模型训练和推理业务,最终赋能行业数智化转型升级。
 

NICC技术体系由“三层两域”构成(如下图),分别是基础设施层、智算平台层、应用使能层、智算运维域和智算运营域。

智算中心体系架构,图源:中国移动 《N I C C 新型智算中⼼技术体系⽩⽪书》

由此可见,虽然智算中心尚未形成业界统一设计方案,不同智算中心的架构会有不同,但总体可以归为三层两域。其中基础设施层提供计算、存储、网络等硬件资源;智算平台层作为资源管理的核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力,在此之上搭建算力原生平台提供应用跨架构迁移能力;应用使能层集成行业主流 AI开发框架以供应用开发调用。智算运维域主要负责对底层 laas(Infrastructure as a Service) 资源进行管理维护,确保系统的稳定运行;智算运营域对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。

中国移动认为,新型智算中心的五个核心技术领域包括:

  1. 新互联:重点发展高速网络互联技术,打破算力瓶颈,确保大模型分布式训练和高效数据交换。
  2. 新算效:通过下一代AI芯片设计思路和存算一体的新型计算范式,提高计算效率和性能。
  3. 新存储:开发高效的数据存储和管理技术,支持大数据量的高速访问和处理,满足智能计算需求。
  4. 新平台:构建支持多样算力生态的算力原生平台,优化资源使用效率,提升模型训练和应用部署的灵活性。
  5. 新节能:实施高效的能源管理和冷却技术,降低智算中心的能耗,推动可持续发展

这五个领域涵盖了智算中心从硬件设施到软件服务、从能源效率到系统管理的全方位技术革新,旨在按照集团的思想构建AI基础设施,尽快形成行业共识,支持未来大模型的孵化和智能服务的发展。其中,新互联、新算效、新存储可以看作 网络、算力、存储 三大要素。这是一个数据中心最重要的三个组成部份。

新型智算中心技术发展路径

a. 新互联

新互联技术对于智算中心的发展至关重要,特别是在支持大模型分布式训练和高效数据交换方面。随着AI模型和数据集的不断增长,传统的计算和存储架构已经无法满足现代智能计算的需求。在这一背景下,新互联技术的发展历程展示了从单一芯片到多芯片集群,再到未来的超级池化时期的演变,强调了高速卡间互联和集群间高速无损网络的重要性。

智算中心网络功能模块,来源:中国移动

智算中心网络从逻辑上可以分为:出口网络、管理网络、参数网络、存储网络和业务网络。其中,参数网络主要用于承载 AI 模型训练业务,其通信流量主要具备周期性、流量大、同步突发等特点。尤其在大模型训练过程中,通信具有非常强的周期性,且每轮迭代的通信模式保持一致。在每一轮的迭代过程中,不同节点间的流量保持同步,同时流量以 on-off 的模式突发式传输,以上通信流量的特点要求参数网络必须具备零丢包、大带宽、低时延、高可靠等特征。参数网络性能的好坏决定了智算中心提供算力的效率。现阶段,参数网络存在两种主流的 RDMA 技术,分别是 InfiniBand(简称 IB)和基于以太技术的 RoCE(RDMA over Converged Ethernet)。

新互联技术中,InfiniBand是一种高性能网络架构,支持高吞吐量和低延迟,常用于数据中心和高性能计算环境。RoCE 允许在以太网上直接进行远程直接内存访问(RDMA),减少数据传输对CPU的依赖,提高数据传输效率。光互联技术利用光纤通信实现高速数据传输,对于连接大规模计算节点,支持大数据量和高速数据处理至关重要。这些技术共同为智算中心提供了强大的网络支持,确保数据快速、高效地在计算节点间传输。

这些技术的进步使得智算中心能够有效地处理和分析海量数据,加速AI模型的训练和推理过程,从而为各种AI应用提供强大的支持。例如,通过优化卡间的高速互联技术,可以显著提高大模型训练的效率,而高效的集群间网络则确保了数据在不同计算节点之间的快速传输,减少了通信延迟,提高了整体计算效率。

此外,新互联技术的发展还促进了智算中心架构的优化,通过引入更加灵活和高效的网络拓扑结构,提高了智算中心的可扩展性和灵活性。这对于应对不断增长的计算需求,支持更复杂的AI模型和算法具有重要意义。

白皮书:InfiniBand简介-CSDN博客

b. 新算效

新算效方面,AI算力的发展经历了从传统CPU到GPU,再到ASIC/FPGA等专用硬件的转变,显著提升了对AI任务的计算效率和能源利用率。这一转变不仅加速了AI模型的训练和推理过程,而且降低了能耗,使得处理大规模数据集和复杂模型成为可能。此外,存算一体化的概念进一步优化了数据处理流程,减少了数据传输时间,提高了系统整体的计算性能。这些技术的发展为智算中心提供了强大的支持,推动了AI技术的快速发展和广泛应用。​​

在智算中心中,CPU、GPU、ASIC和FPGA各自扮演着独特的角色,共同推动着计算能力的提升。CPU以其通用性强、适用于广泛计算任务的特点,构成了计算的基础。GPU则因其并行处理能力强大,特别适合于处理AI和机器学习中的大规模并行计算任务,大幅提升了智算中心处理复杂算法的能力。ASIC为特定应用定制的电路,提供了极致的效能和能效比,尤其适合于执行固定算法。FPGA提供了高度的可编程性和灵活性,允许在硬件级别对计算任务进行优化。新型的存算一体概念通过密切集成计算和存储资源,进一步提高了数据处理效率,减少了数据在不同硬件组件间传输的延迟,对于处理大规模AI模型和复杂数据分析任务尤为关键。

DPU 作为CPU、GPU 之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器。面对智算业务场景,中大规模模型训练和推理任务对网络和存储1/0的时延提出了更极致的性能需求,DPU的引入,尤其是在存算一体化架构中,进一步优化了数据流动,降低了延迟,提升了智算中心处理大规模AI模型和复杂计算任务的能力。

CPU、GPU、DPU、TPU、NPU...傻傻分不清楚?实力扫盲——安排_spdunp-CSDN博客


英伟达GPU对比,图源:浙商证券《算力中心铸就大模型时代基座》

国产GPU对比,图源:浙商证券《算力中心铸就大模型时代基座》

CUDA 生态是英伟达关键壁垒之一,国产厂商加速建立自身开发者生态。国外厂商英伟达除芯片硬件性能之外,软件CUDA 生态亦是其重要壁垒。借助CUDA,开发者能够利用GPU 的强大性能显著加速计算应用。CUDA 工具包中包含多个GPU 加速库、一个编译器、多种开发工具以及CUDA 运行环境。国内厂商由于起步较晚,在开发者生态上与国外成熟产品仍有差距。在政府推动及下游产业支持下,国产芯片厂商开发者数量逐步上升,生态渐渐形成。

关于GPU、ASIC、FPGA在人工智能算法上的对比。

引用自:交银国际
​​​​​​​

长期以来,实现不同人工智能算法的主要硬件架构有 GPU(一般是通用型 GPU,General Purpose GPU,GPGPU),ASIC(特种芯片 Application Specific Integrated Circuit),FPGA(可编程芯片 Field Programmable Gate Array)。我们 认为,英伟达的 GPGPU 配合软件(CUDA)在相当长的一段时间内或将是人工 智能加速芯片的主流,并占据绝大部分(>90%)的市场份额。

回顾历史,上一轮人工智能热潮发生在 2012-2018 年的时间范围内,其主要突 破是以 AlexNet,CNN 等为代表的等视觉认知与推理功能。上述三种芯片实现 技术在该轮人工智能热潮中都得到了业界足够的重视和尝试。而时至今日,当 生成人工智能技术兴起之初,GPGPU 配合软件的技术路线任然是业界实现新技 术的首选。需要指出的是,最近发展的生成式人工智能技术比上轮人工智能热 潮中市场所关注的技术在算法复杂度上和实现难度上要复杂很多,且需要更长 的算法调试与开发周期,我们认为,以 GPGPU 配合软件的技术路线或在较长 一段时间内是训练算法的主流解决方案。同时,我们认为,英伟达的 GPGPU 配合 CUDA 软件的技术路线也应当是推理算法的主流,但其进入门槛低于训练 算法。

分析具体的原因,FPGA 技术有较强的灵活性,可以根据算法的不同重新构造 电路结构,但就是因为技术存在的灵活性牺牲了芯片的运算效率。生成式人工 智能技术对运算需求高,模型训练时间以年为计算单位,即便是对推理运算的 实时性要求也较为苛刻,因此,FPGA 或不是生成式人工智能的主要硬件实现 路线。

ASIC 的实现方法似乎相对于 FPGA 路线在另一个极端,其电路效率高,运算时 间也短,但是 ASIC 实现方式需要算法相对稳定,或者说其技术路线对于不同算 法的可适应性差,且开发周期长,解决方案的验证过程很复杂。在生成式人工 智能技术还在不断迭代的过程中,我们认为 ASIC 的解决方案在可实现度上要差 于 GPGPU 配合软件的技术路线。当部分算法,特别是推理算法相对稳定之后, 我们认为 ASIC 技术路线或取得部分市场份额。

ASIC 技术最近一般被 AWS、Google、Microsoft 等主要云服务提供商内部采纳开发。与其可适应性差的特点 如出一辙,各个云服务厂商各自开发的 ASIC 技术路线一般相互不可兼容,因 此,在短期内或也不会对英伟达市场的主体地位构成直接威胁。长期看,一旦 算法稳定(虽然这个可能需要很长一段时间),我们不能排除部分推理市场可 能被 ASIC 路线占据的可能。

最后,对于 AMD 等使用开源软件 GPGPU 的技术路线,我们认为,其解决方案 与之前英伟达 CUDA 软件之间的可兼容性,或是 AMD 是否获得较大市场的关 键。AMD 在 4Q23 发布了其最新的人工智能加速 GPU 解决方案 MI300,在 24 年 1 月的财报中管理层指引 MI300 2024 年的销售额为 35 亿美元以上。我们认 为英伟达的 CUDA 软件的解决方案有先发优势,从上一轮人工智能热潮(2012- 2018 年)开始,英伟达 CUDA 的解决方案作为人工智能算法开发的主流,已经 是过去十年以上绝大多数已开放软件的代码基础,这些人工智能代码是否可以 在最新的 MI300 上顺利运行,包括之前基于英伟达软件所开发的插件,方程是 否可以复制在 AMD 的平台上,都需要 AMD 开源的软件一段时间的调整适配。

c. 新存储

新存储技术的演进对于提高数据处理能力和效率起到了关键作用。随着AI和大数据应用的需求增长,对存储系统的速度、容量和可靠性要求也不断提升。新型存储技术,如固态硬盘(SSD)的采用,以及基于非易失性内存(如3D XPoint技术)的存储解决方案的开发,极大地提升了数据访问速度和系统响应时间。此外,软件定义存储(SDS)和自动化数据管理策略的应用,为智算中心提供了更高的灵活性和扩展性,使其能够更有效地管理日益增长的数据量。这些新存储技术的发展,不仅加速了智算中心的数据处理能力,也为复杂AI模型的训练和大数据分析提供了坚实的基础。

存储架构必然走向变革


归根结底,数字经济的快速发展,让智慧应用在数据类型、数据量、数据处理等方面的需求比以往有了指数级的提升。如何让这些海量数据能够存得下、用得快、流得动和管得好,是当下存储架构最具挑战的难题。

为此,西部数据开出了它的“组合药方”:去中心化分布式存储、分层存储和分区存储三大创新存储架构。

首先,去中心化分布式存储解决的是让更多数据存下来的难题。众所周知,随着区块链、人工智能等技术逐渐在业务场景中走向融合,基于这些技术的智慧应用正在数字版权、供应链管理、医疗健康等多个行业诞生,随之而来的就是海量数据,而去中心化分布式存储将大幅降低存储成本,存储更多数据。

其次,分层存储解决的是让存储资源可以物尽其用,充分满足数据生命周期不同阶段对于存储资源的需求。刘钢透露,西部数据根据数据对存储时延、容量的需求,将分层存储架构划分为五层:极热存储、热存储、温存储、冷存储和极冷存储,并且每一层都有对应产品来保障。比如像一些内存计算、数据分析类的场景,对于数据处理性能极度渴望,就更加适合采用极热存储;而自动驾驶等AI场景,对于数据处理性能、容量都有着很高的要求,采用热存储就非常符合。

————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/dobigdata/article/details/116097675

d. 新平台

在新平台部分,中国移动特别强调了池化技术和Kubernetes技术的应用及其重要性。池化技术指的是通过资源池的形式,将计算、存储等资源集中管理和调度,以提高资源利用率和降低能耗。这种技术在智算中心中发挥着核心作用,使得资源配置更加灵活高效。

智能算力池化指依托云计算技术,整合 GPU/AI 芯片等异构算力 资源,构建集中管理的资源池,并按上层智算业务的需求,对池化的 资源进行统一调度、分配,实现智算业务生命周期管理的全套技术。

为解决智算中心所面临的资源利用率问题,算力池化基于传统云计算技术(如 Kubernetes、OpenStack,智算中心以 Kubernetes 为主)有针对性地增强 GPU/AI 芯片池化能力,采用软件定义的方式, 对 GPU/AI 芯片进行分时调度管理,实现按 GPU/AI 芯片的细粒度分配 资源,并采用 GPU/AI 芯片 Runtime API 劫持、应用程序监视器等技 术,实现资源跨节点远程调用、零散资源整合等,从而达到算力资源 充分利用、碎片最小化效果,可有效提升资源效率,降低智算中心整 体建设成本。

智算中心基石-AI算力池化_人工智能算力中心基础架构-CSDN博客

e. 新节能

新节能部分的分析主要聚焦于智算中心的能源效率和散热技术的进步,特别是液冷技术在提升智算中心能源效率和降低设备运行温度中的应用。随着高性能计算服务器和智能计算需求的增加,服务器功率密度急剧上升,导致散热问题变得更加严峻。为解决这一挑战,文档详细介绍了液冷技术的发展及其在智算中心中的应用。

液冷技术,相比于传统的空气冷却技术,提供了更高的热传导效率,能够有效地将热量从发热元件中导出。液冷技术包括冷板式、浸没式和喷淋式三种主要形式。其中,冷板式和浸没式液冷因其高效的散热能力而成为目前的主流方案。冷板式液冷通过在设备和液体冷却板之间进行热交换来导出热量,而浸没式液冷则是将设备直接浸入冷却液中,通过液体直接与发热元件的热交换来达到冷却的效果。

这些技术的应用不仅可以显著提高数据中心的设备部署密度,降低机房空间需求,还能提高服务器和芯片的可靠性,保证它们在最佳状态下运行,从而提高整体的性能和效率。此外,液冷技术还有助于实现数据中心的能源效率优化,通过减少冷却过程中的能耗,提升整体的能源利用效率(PUE)。

然而,液冷技术的推广和应用也面临一些挑战,包括液冷系统的标准化、系统可靠性、以及监控和运维的复杂性等问题。为此,中国移动建议采取一系列措施,包括推动液冷技术相关标准的制定、优化液冷系统的设计以增强其可靠性、以及采用集中式CDU(冷却分配单元)等方式来简化系统的监控和维护。

总的来说,新节能部分强调了液冷技术在实现智算中心可持续发展中的关键作用,以及面向未来,如何通过技术创新和标准化推动,解决散热问题,提高能源效率,促进智算中心向更环保、更经济、更高效的方向发展。

4. 智算中心与其他算力中心的区别

计算在发展过程中从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算,每种计算都有相应的算力中心去支撑。承载当前企业应用、政府应用和个人应用的算力中心是数量众多的各类云数据中心。承载科学计算的算力中心是超算中心。当前人工智能计算需求正呈指数级增长,未来在社会总计算需求中将占据80%以上,承载这种需求的就是AI算力中心,即智算中心。

智算中心,图源:西南证券《智算中心——赋能AI产业化、产业AI化》

5. 美国智算中心

美国并未严格区分不同的数据中心。虽然分类可能不那么清晰,但这些中心的功能和专业化程度却大同小异。美国拥有强大的数据中心、超级计算中心(通常与学术、政府和研究机构相关)网络,专门用于人工智能和机器学习工作负载的设施也越来越多。术语可能有所不同,但功能与上述类别密切相关。

美国主要数据中心
美国拥有一些世界上最大、最先进的数据中心,由科技巨头、云服务提供商和主机托管公司运营。著名的实体包括:

  • 科技巨头: 谷歌、微软、亚马逊(通过 AWS)和 Facebook(Meta)运营着庞大的数据中心网络,为其云、搜索、社交媒体和流媒体服务提供支持。
  • 云服务提供商: 除上述科技巨头外,IBM、甲骨文和 Salesforce 等其他公司也拥有大量数据中心。
  • 主机代管提供商: Equinix、Digital Realty 和 CyrusOne 等公司为从初创企业到大型企业的客户提供数据中心空间、电力和制冷服务。

融资与建设
美国数据中心的资金主要来自企业投资,这反映了数字基础设施对现代企业的战略重要性。这些设施的建设通常是大型资本支出计划的一部分,由企业自身投入大量资金,同时还有贷款、债券等融资方式,有时还有公共资金激励措施(税收减免、赠款等),以鼓励地方发展。

支持数据中心的政策
虽然美国数据中心的很大一部分确实是由企业投资驱动的,尤其是在商业领域,但政府也大量参与了数据中心和超级计算中心的资助和运营。这些由政府资助的中心主要侧重于研究、国家安全、天气预报、科学模拟和其他公共利益目标。以下是这方面的概述:

国家实验室和研究机构: 世界上许多功能最强大的超级计算机都位于美国国家实验室和研究机构内。这些设施由多个政府部门资助,包括能源部(DOE)、国家科学基金会(NSF)和国防部(DoD)。例如

  • 橡树岭国家实验室(ORNL): 拥有一些用于开放式科学研究的最强大的超级计算机,由能源部资助。
  • 阿贡国家实验室(ANL): 同样由能源部资助,专注于广泛的科学学科。
  • 国家大气研究中心(NCAR): 由美国国家科学基金会(NSF)资助,重点研究大气和地球系统科学。

资助机制: 这些中心的资金主要来自联邦预算,联邦预算为这些关键基础设施的研究、开发和维护划拨资金。这些资金既支持设施的建设,也支持其运营开支,包括能源消耗,由于超级计算中心需要密集的计算能力,能源消耗对其意义重大。

支持政府数据中心的政策: 美国政府还颁布了优化和整合数据中心基础设施的政策,以提高效率、安全性和服务交付能力。联邦数据中心整合计划(FDCCI)和数据中心优化计划(DCOI)就是此类努力的范例,旨在降低政府的运营成本,提高 IT 效率。

计算能力
美国的数据中心是全球功能最强大、效率最高的数据中心之一,采用了最新的服务器、存储和网络技术。它们往往是能效、冷却技术(如液体冷却和使用可再生能源)和高速连接方面创新的先锋。

6. 全球算力对比

2022-2023 全球计算力指数,来源:IDC

《2022-2023 全球计算力指数评估报告》数据显示,全球算力排名美国和中国分列前两位,追赶者包括日本、德国等国家。

21-22年全球算力规模情况,图源:《2023智能算力发展白皮书》

根据《2023智能算力发展白皮书》显示,截至到2022年底,全球算力总规模达到650 EFLOPS,其中,通用算力规模为498 EFLOPS,智能算力规模 142 EFLOPS,超算算力规模为10 EFLOPS。智能算力规模与去年相比增加了25.7%,规模占比达 21.9%。IDC预测,全球 AI 计算市场规模将从 2022年的195.0 亿美元增长到2026年的346.6亿美元。

21-22年我国算力规模情况,图源:《2023智能算力发展白皮书》

在算力规模方面,截止到2022年底,我国算力总规模为180 EFLOPS,排名全球第二。其中,通用算力规模为137 EFLOPS,智能算力规模 41 EFLOPS,超算算力规模为2EFLOPS。中国智能算力正处于高速增长阶段,智能算力规模与去年相比增加了41.4%,规模占比达 22.8%,超过全球整体智能算力增速(25.7%)。


下面的数据代表 TOP500 榜单中每个国家的超级计算机数量。截至 2023 年,美国拥有榜单上最多的超级计算机,达 161 台。

数据来源:TOP500:Home - | TOP500

全球算力总规模不断扩大,算力规模主要包含基础算力、智能算力、超算算力三部分。

根据《中国算力发展指数白皮书(2022年)》数据,2021年全球算力总规模为615

EFlops,同比增长43.4%。2021年全球智能算力规模为232 EFlops,同比增长116.8%,

增速远超总算力增速。中国信通院预测2025年全球算力总规模将达3300 Eflops,

CAGR超50%。

AI服务器能够提供人工智能数据服务,是算力基础设施之一。智能算力规模以AI服务器为基础,全球AI服务器市场规模不断上升,据IDC数据,2022年全球AI服务器市场规模为183亿美元,同比增长17.3%,预计2023年将达211亿美元。

2022年AI服务器销售额为523.5亿元,预计2025年AI服务器销售额将达1183.2亿元,2022-2027年均复合增长率达17.7%。根据IDC预测,2023年我国智能算力规模将以59.3%的速度增长,预计2026年将达1271.4EFlops。

引用自西南证券《智算中心——赋能AI产业化、产业AI化》

总体而言,国外网上很少能找到智算中心相关的总算力数据,国内各个研报的算力数据方差极大。这可能是因为 1. 智算中心的定义还未在全球范围内广泛接受,美国许多传统数据中心实际上也在进行“智算”任务,使得智算中心与其他数据中心之间的区分变得模糊。2. 数据获取和共享的限制,许多公司视其数据中心的详细信息和性能数据为商业敏感信息,不愿公开分享。这导致外部分析师和研究机构难以获得准确和全面的数据。

7. 我国智算中心一览

        a. 政府主导

政府主导的智算中心以华为为主

        b. 企业主导

三、AI对智算中心的影响

1. AI技术发展现状

下文引用自:《2023智能算力白皮书》

人工智能技术高速发展,应用方向逐渐多样化和复杂化。智能算力主要有三个优点,一是能够提供大规模数据处理和复杂计算的能力,满足人工智能算法对于高性能计算的需求;二是能够加速人工智能模型的训练和推理过程,提高算法的效率和准确度;三是能够与其他技术手段结合,如云计算、大数据分析和边缘计算,实现人工智能在各行业的广泛应用。智能算力满足人工智能高并发、高弹性、高精度的计算需求,推动人工智能技术的不断升级与应用。高性能的计算能力为机器学习、深度学习和自然语言处理等人工智能技术的发展提供了有力的支持,通过智能算力的支持,人工智能算法能够处理和分析大规模的数据,实现复杂任务的智能化。未来五年,人工智能将在企业市场中加快应用与落地,智能算力将成为创新的核心推动力。


1. 机器学习

机器学习(Machine Learning)本质是通过计算机从大量的数据中找到整合数据的规律,从而实现对于数据未来走向的预测。由机器学习算法支撑的机器视觉、听觉和语音交互被应用各种产品和服务中,进而带来了 AI 在商业应用方面的爆炸式增长。目前通过让机器从大量数据中自主学习,机器学习使计算机具有了更强大的智能和能力,已经被广泛应用于图像识别、语音识别、医疗诊断、金融风控、智能推荐等领域。同时,机器学习也开始参与到了计算机内部体系的研究和设计过程中,例如在计算机的翻译器、硬件处理器以及软件工程等设计开发方面利用更加现代化的编程语言。
 

智能算力在机器学习中的作用主要是为深度学习模型训练、大规模数据处理、实时数据分析与预测、自动化模型选择和调参、分布式机器学习等提供强大的计算力。在机器学习中,通常需要处理大规模的数据集。例如,图像分类任务中,需要处理成千上万张图像来训练和测试模型,智能算力提供了并行计算和分布式计算的能力,可以快速处理大规模数据,加速训练过程。智能算力还可以在实时数据分析和预测方面发挥作用。例如,通过将机器学习模型部署在智能算力的环境中,可以实时地监测和分析海量的数据,并利用模型进行实时预测和决策。
 

2. 深度学习

深度学习(Deep Learning)是一种基于多层神经网络的机器学习方法,主要特点是能够处理复杂的非线性问题,可以学习和理解图像、声音和自然语言等复杂数据,并具有优秀的预测和决策能力。2011年,微软和谷歌率先将深度学习技术应用于语音识别,大大提升了识别率;2012年,深度学习开始用于图像识别,在ImageNet 数据集上将原有识别错误率降低了百分之十一;同年,微软公开了采用深度学习技术的“全自动同声传译系统”,该系统几乎能达到和人一样的水平,实现实时翻译;2013年,百度宣布成立深度学习研究所,专注于该技术的研究;2016年,谷歌开发的人工智能 AlphaGo战胜专业围棋选手,这一成果迎来了深度学习的热潮。目前,应用较广泛的深度学习框架有 TensorFlow、Caffe、MXNet、Torch、PyTorch 等,实际应用主要有计算机视觉、语音识别、语言处理等。
 

随着深度学习的推进,人工智能逐渐应用到各个领域,对算力的需求越来越高,其核心是人工智能要达到目标必须不断地进行大规模、高频次的数据训练,经过训练神经网络才能总结出规律,对新的样本才能进行判断和分析。智能算力在深度学习中的应用现状主要体现在以下几个方面:一是训练模型,深度学习模型具有复杂的结构和大量的参数,需要大量的计算资源进行训练,智能算力通过GPU、TPU 等高性能的计算设备,加速深度学习模型的训练过程。二是推断推理,智能算力通过高性能计算设备和专门的推理芯片加速深度学习模型的推断过程,提高了模型的实时性和稳定性。三是模型优化,通过智能算力可以对模型进行自动化的超参数调优、网络结构搜索、模型剪枝等操作,进一步提高模型的精度和效率

3. 自然语言处理

自然语言处理(Natural Language Processing,NLP)指的是基于人类日常交流过程当中所使用的自然语言与计算机进行交互的一种技术类型,涵盖语言学、计算机科学、数学、新闻学等一系列学科内容,是计算机领域以及人工智能领域未来发展的重要方向。针对特定应用,具有相当自然语言处理能力的实用系统已经出现,甚至开始产业化。如多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。在人工智能技术的支持下,自然语言处理系统的适应能力不断提升。

智能算力在自然语言处理中的应用主要体现在以下几个方面:一是语言模型,基于深度学习的语言模型(如BERT、GPT 等)极大地提升了NLP 任务的性能,这些模型能够学习到丰富的语义信息和潜在语言规律,使得计算机能够更好地理解和生成自然语言文本。二是

机器翻译,神经机器翻译(NMT)技术已经成为主流,NMT模型能够将一种语言翻译成另一种语言,实现更准确和流畅的翻译质量。三是问答系统,通过结合 NLP、信息检索、文本匹配和语义分析等技术,问答系统能够根据用户提出的问题返回准确的答案。四是文本分类与情感分析,NLP 技术可以利用深度学习方法对文本进行分类和情感分析,广泛应用于舆情监测、电商评论分析等领域。

4. 计算机视觉

计算机视觉是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。计算机视觉技术主要应用包括图像分类和目标检测、人脸识别、图像生成和风格迁移、三维重建和虚拟现实、视频分析和行为识别等。计算机视觉硬件方面主要还是由国外巨头把控,国内市场份额不足,特别是芯片领域和算法算力方面,但在数据方面,我国市场巨大,应用广泛;中游技术层面部分技术我国已处于领先地位,如人脸识别算法方面、物体检测技术;下游应用层面成果广泛,我国已形成了全面布局行业解决方案,特别在智慧安防、智慧金融、互联网领域市场增长迅速,颇具竞争优势。智能算力在计算机视觉中的主要应用是使用深度学习模型,特别是卷积神经网络,进行图像分类、目标检测和图像分割等任务,这些模型在智能算力支撑下经过大规模数据的训练,能够准确地识别和解析图像中的内容。

5.数据分析和挖掘

数据分析和挖掘技术是从大规模数据中提取有价值信息的重要工具,主要通过统计、计算、抽样等相关的方法,来获取基于数据库的数据表象的知识。随着大数据时代的到来和技术的不断进步,数据分析技术和工具不断涌现,包括数据可视化和探索、机器学习和深度学习、数据挖掘算法、异常检测和异常数据分析、大规模数据处理和分布式计算等。这些工具和技术的出现及应用,提高了分析数据的效率和精度,并且增加了数据科学家对数据解释的可信度。目前,解决问题和做决策所需的数据已经不再是少数行业,广泛应用于金融、教育、环境和安防等各个领域,未来数据分析技术及其工具将被广泛应用并将向自动化、智能化发展。智能算力在数据分析和挖掘领域的主要应用是使用机器学习算

法,如决策树、支持向量机、随机森林等,对大规模数据进行模式和关联性的挖掘。另外也可以应用于深度学习模型,如神经网络,对大量的结构化和非结构化数据进行高级分析和挖掘,如图像、文本和语音数据等。另外智能算力可以帮助实现自动化的数据处理和特征工程。通过智能算力的高效计算和高度并行的能力,可以加速大规模数据的清洗、转换和特征提取过程。

6.  智能算力应用层面发展现状

智能算力推动人工智能技术落地,算力释放成为生产力。人工智能技术的核心是模型训练与推理,而对于庞大的数据集和复杂的算法模型,需要大量的计算资源来支持。智能算力可以更快、更高效地进行模型训练和优化,从而加速人工智能技术的发展,推动人工智能技术应用于更多的领域和场景,为社会和企业创造实实在在的价值。例如,在制造业,智能算力可以优化供应链管理与生产流程,实现智能制造;在金融领域,智能算力可以提供更准确的风险评估与投资建议,提高金融机构的决策能力;在汽车行业,将计算机视觉和机器学习与GPS 定位技术、传感器技术、大数据技术等进行有机融合,为汽车的自感知、自学习、自适应和自控制提供支持。如今算力被视为生产力,成为传统产业转型升级的重要支点,积极释放数据要素的创新活力,赋能各行各业。

2. AI技术对智算中心的算力需求

首先,算力需求急剧上升。根据 IDC的预测,未来3年全球新增的数据量将超过过去30年的总和,到2024年,全球数据总量将以26%的年均复合增长率增长到 142.6ZB。这些将使得数据存储、数据传输、数据处理的需求呈现指数级增长,不断提升对算力资源的需求。

另外,面向人工智能等场景,大规模的模型训练和推理也需要强大的高性能算力供应。其次,算力灵活调度受限。另外,不同应用场景对AI算力的精度、能效、速度、交互性、部署方式以及网络安全、网络带宽的要求各不相同,部分场景难以通过网络实现算力的灵活高效调度,无法满足人工智能推理和训练需求。

解决方案:一是为满足业务的大算力需求,通过构建智算中心、超级计算中心以及云计算中心实现对大算力业务的资源供给,另外还可以通过网络将数据源周围闲散算力(云计算、边缘计算等)调度起来以弥补大型科学装置的算力缺口。二是提高算力使用效率,如算网协同优化 AI 计算效率,算力服务结合人工智能技术推动算力资源的精准配置和按需获取。三是发展可扩展、自演化、高可靠和安全的新型网络架构,促进数据的处理与流通。四是建立统一的算力调度平台,形成覆盖全国、互联互通的算力调度服务体系和平台基础框架,实现对全网算力资源统一编排、统一输入输出。

3. AI技术在智算中心的基础应用

        1. 元宇宙

元宇宙(Metaverse)是人类运用数字技术构建的,由现实世界映射或超越现实世界,可与现实世界交互的虚拟世界,具备新型社会体系的数字生活空间,集成了一大批现有技术,包括5G、云计算、人工智能、虚拟现实、区块链、数字货币、物联网、人机交互等。元宇宙中的虚拟世界构建经历了从文本到2D 再到3D的形式演变,交互方式也由命令行转变为图形界面再到最近的虚拟现实、增强现实以及混合现实等更加自然的方式。在内容创作上,从早期的专业创作内容逐步过渡到用户创作内容的形式,且有望在未来进入人工智能创作内容的范式。2021年新冠疫情的推动下元宇宙爆火,Soul App 首次提出构建“社交元宇宙”,微软打造“企业元宇宙”;同年,英伟达推出全球首个为元宇宙建立提供基础的模拟和协作平台,美国脸书(Facebook)宣布更名为“元”(Meta),来源于“元宇宙”(Metaverse),并宣布两年内对 XR 投入5000万美元。

智能算力为元宇宙的构建提供了强大的计算支持。通过云计算、分布式计算、边缘计算等技术,智能算力能够快速有效地处理海量数据和复杂计算任务,实现元宇宙中的虚拟现实、人工智能、物联网等应用。在虚拟现实方面,智能算力可以支持逼真的图形渲染、物理模拟和实时交互,提供沉浸式的虚拟体验;在人工智能方面,智能算力能够训练和优化复杂的神经网络,实现自动化的语音识别、图像处理和情感分析。未来智能算力将与边缘计算、区块链等新兴技术相结合,更好地满足元宇宙应用对于大规模数据处理、实时互动和高度智能化的需求。

        2. AIGC

AIGC (Al-generated content,人工智能生成内容技术)是基于GAN、预训练大模型、多模态技术融合的产物,通过已有的数据寻找规律,并通过泛化能力形成相关内容。随着 ChatGPT 的爆火,整个AIGC领域瞬间被点燃,绘画、建模、视频、影视等领域纷纷探讨应用的可能性,在 OpenAI 的 ChatGPT 之外,谷歌、百度、阿里、字节等大厂纷纷投入各类大模型的研发中,属于 AIGC 的大时代已经来。AIGC已经能够生成文字、代码、图像、语音、视频、3D物体等各种类型的内容和数据,多模态技术的成熟让 AIGC 可应用的广度不断扩展,未来应用潜力更大。

从技术角度来看,AIGC 的背后是算力、数据、算法等核心要素的有机融合,模型越大,对算力要求越高。ChatGPT 爆火的背后,本质上是人类在 AI领域软件(数据、算法)、硬件(算力)综合能力大幅提升以后的一次爆发式体现。基于飞天智算的阿里云深度学习平台PAI,将计算资源利用率提高3倍以上,AI 训练效率提升11倍,推理效率提升6倍;新华三推出专门为大模型训练而生的 AI服务器及 51.2T、800G CPO 硅光数据中心交换机,支持大算力调度的傲飞算力平台;“文心一言”背后的算力基础设施是百度智算中心,是亚洲最大的单体智算中心,可承载约28万台服务器,算力规模达 4EFLOPS。未来AIGC 对智能算力的需求将更加强劲,GPU、FPGA、ASIC 等底层硬件中包含的智能算力价值将被重塑。

国内外文生文模型参数对比

国内外大模型梳理,引用自西南证券《AIGC投资框架》

北京时间 2 月 16日凌晨,OpenAI 发布了首个文生视频模型 Sora,可以用文字指令生成长达 60 秒的高清流畅视频,在生成视频长度、连贯性、多镜头切换方面具备显著优 势。本文基于大语言模型推导算力需求方法,对 Sora 单次训练算力需求进行 推演,据相关研究推测,Sora 参数规模估算在 30B(待确认),如果按此参数 测算,我们推演出 Sora 训练单次算力需求或可达到 8.4×10^23Flops,相当于 GPT-3 175B 的 2.7 倍。我们认为,目前 Sora 还在初级阶段,仍然存在如能以 准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等,但伴随 Sora 不断迭代调优,训练数据集规模增大,未来算力需求将呈现指数级爆发式增 长,持续看好上游算力基础设施投资机会。


Sora 是人工智能发展进程中的“里程碑”,推动 AGI 时代加速到 来,算力需求将持续爆发,持续看好产业链投资机会。建议重点关注国内上 市公司:1、国内多模态大模型:科大讯飞、海康威视、大华股份;2、算力 基础设施:工业富联、中科曙光、软通动力、神州数码、曙光数创、润泽科 技、拓维信息;3、AI 应用端:万兴科技、金山办公、超图软件、彩讯股份、 拓尔思、卫宁健康、嘉和美康等。


引用自中国银河证券 《Sora对算力的要求影响几何?》

        3. 数字孪生

数字李生(Digital Twin,数字双胞胎),是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的实体装备的全生命周期过程。国外关于数字李生的理论技术体系较为成熟,当前已在相当多的工业领域实际运用。国内数字李生技术处于起步阶段,研究重点还停留在理论层面。数字李生技术目前呈现出与物联网、3R(增强现实(Augmented Reality,AR)、虚拟现实(Virtual Reality,VR)和混合现实(Mixed Reality, MR))、边缘计算、云计算、5G、大数据、区块链及人工智能等新技术深度融合、共同发展的趋势。智能算力可以支持数字李生模型的建模、仿真和优化并推动其在行业中的广泛应用。从技术角度来看,通过云计算、大数据分析和机器学习等技术手段,智能算力能够处理和分析大规模的数据,并生成高度精确的数字李生模型。同时,智能算力还能够实现实时的数据同步和模型更新,提高数字李生系统的性能和可靠性。从行业应用角度来看,智能算力在数字李生领域已经得到广泛应用。在制造业领域,智能算力能够建立物理系统的数字李生模型,并通过数据监测和算法优化提高生产效率和质量;在城市规划和交通管理方面,智能算力能够建立城市的数字李生模型,优化交通流量和环境布局;在医疗领域,智能算力能够创建人体的数字孪生模型,辅助手术规划和医学研究。

        4. 边缘智能

边缘计算和人工智能彼此之间相互赋能并催生了新的研究领域—边缘智能。边缘计算将计算、网络、存储等能力扩展到物联网设备附近的网络边缘侧,而以深度学习为代表的人工智能技术让每个边缘计算的节点都具有计算和决策的能力,这使得某些复杂的智能应用可以在本地边缘端进行处理,满足了敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的需求。在边缘智能中,边缘计算为人工智能提供了一个高质量的计算架构,对一些时延敏感、计算复杂的人工智能应用提供了切实可行的运行方案。目前,边缘智能正深入推动智慧交通、智能制造、云游戏等应用的发展,促进了产业的实现与落地,为全面提升智能化水平提供了重要保障。

其他应用还包括推荐系统、语音识别、图像识别等。行业应用包括自动驾驶、金融风险评估以及量化交易等。


四、相关企业

1. 智算中心上下游

智算中心产业链梳理,图源:西南证券 《智算中心——赋能AI产业化、产业AI化》

2. 智算中心重点关注企业

AI 发展下算力产业发展迎来重大机遇,是 AI 大潮下确定性最高的细分领域之一

​​​​​​​1)国产 AI 芯片龙头:寒武纪、海光信息、超讯通信(沐曦)、景嘉微等;

2)华为昇腾一体机厂商:科大讯飞、云从科技、软通动力、恒为科技等;

3)AI 服务器整机厂商:软通动力、浪潮信息、联想集团、中国长城、中科曙光、

高新发展(华鲲振宇)、神州数码、拓维信息、烽火通信(长江计算)等;

4)算力运维:润建股份,网宿科技,超讯通信,杭锦科技、龙宇股份等;

5)先进封装:长电科技,通富微电,甬矽电子,兴森科技等。


来源:民生证券:《中国 AI 算力中心深度研究——“算出个未来”》

土建基础设施:

  • 24
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智算中心对云计算的影响是非常重要的。云计算是一种基于互联网的计算模式,通过资源共享和按需服务的方式,提供灵活、可扩展和经济高效的计算资源。智算中心作为一个专门从事高性能计算和大数据处理的机构,对云计算的发展起到了推动和引领作用。 首先,智算中心通过研究和开发云计算相关技术,提供了丰富的解决方案和工具,为企业和个人用户提供了更便捷、高效的云计算服务。智算中心的研究成果不仅促进了云计算技术的发展,还推动了云计算在各个领域的应用和普及。 其次,智算中心通过云计算平台提供了高性能计算和大数据处理的能力,为科研机构、企业和个人用户提供了强大的计算资源支持。这使得科学家、工程师和研究人员能够更快地进行模拟、分析和研究,加快了科学技术的发展速度。 此外,智算中心还通过云计算平台提供了数据存储和管理的能力,为大规模数据处理和分析提供了支持。这对于数据密集型的应用,如人工智能、机器学习和深度学习等领域具有重要意义,帮助用户更好地利用和挖掘数据的价值。 总而言之,智算中心对云计算的影响体现在技术研究和创新、计算资源支持以及数据管理和应用等方面。通过智算中心的努力,云计算得到了广泛的应用和推广,为各个行业带来了巨大的变革和发展机遇。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值