2024年或多或少的了参与了几个大型的算力中心的规划及实施,总体感觉与回顾如下:
1、算力市场与建设规模依旧呈现上涨趋势
随着大模型时代的到来和市场热度不断攀升,特别是自2023年以来,训练计算量较之前增加了2到3个数量级,预计未来AI算力需求依旧呈现持续发展的趋势。当然,算法的技术突破也是拉动算力需求的关键因素,尤其是深度学习的发展使得所需算力从TFLOPs级别已经迅速提升至EFLOPs级别。
2、国家政策的支持与战略布局的需要
政府出台了一系列政策文件,强调基础设施互联互通、算力保障和流通利用标准建设,也在不断的推动全国一体化算力体系的形成,多个省市也设定了明确的算力规模目标,并推动智算中心和超算中心的建设,以促进地方经济数字化转型,在对应的政策需求之下,也是参与到多个项目之中。
从项目的服务形态和场景需求可明显感知,AI算力正在快速渗透到各行各业,其包括但不限于广告、传媒、教育、金融等领域。明显感觉在对应的领域中大型预训练模型的应用不仅提升了效率,还降低了成本,优化了决策过程。比如车企,算力的应用与发展对新能源汽车智能化的需求有了明显的促进,高算力帮助车规芯片的研发和应用,也不断在满足自动驾驶不同等级的需求。车厂与科技公司合作开发AI大模型,将其接入整车已成为行业趋势。
3、技术创新和应用在不断的优化
基于用户对应用场景与服务的高质量需求的不断提升,为应对推理端算力需求的持续扩大,企业也不断的在研发多种推理加速技术,如XX自研的推理加速算法、全链路FP8量化、KVCache稀疏压缩等,都是为提高推理效率并降低成本。其次,随着全国多个算力中心的建设与投入使用,部分大型企业的算力调度平台也不断上线,其通过分布式节点纳管技术,实现了对分散在全国各地的算力资源进行集中管理和实时监控,提高了运维效率和服务稳定性。
在全球碳中和背景下,中国明确提出“双碳”目标,开始推动算力基础设施的绿色化。数据中心在建设时更加注重PUE值(电能使用效率),储能系统也要求降低能耗,实现可持续发展,算力中心的建设也逐步从沿海开始往青海、新疆等级进行发展,人员差旅地也不断更新,此处无力吐槽~~
4、竞争加剧
随着算力中心的建设,应用场景的细化,各种竞争不断加速,可以说“卷”的不要不要的,如为了满足不同精度要求,推进算力多元化供应,市场上转眼间就出现了通用算力、智能算力和超算算力等多种类型,企业根据自身业务需求选择最适合的算力解决方案,在建设过程中多种算力的规划与融合也是极大的现实问题,往往出现外行指导内行的情况,算力的消耗反而成为了建成后容易被忽略的内容事项。而为了满足通用、智能、超算等需求,导致商用国产芯片的发展开始受到重视,旨在精准匹配智算业务需求,同时又需要减少对外部进口设备的依赖,增强自主可控性。此外,能耗指标,导致客户对绿色算力中心的高要求促使企业在PUE值、可再生能源比例、绿色服务协议(SLAs)等方面做出改进,以赢得市场竞争优势。
也许在未来的一年全国算力规模的新增量会达到一定EFLOPS水平,智能算力占比也会达到特定比例,新增算力基础软硬件设施自主可控比例也可能达到60%以上,但对应算力的应用服务场景和算力消耗始终是需要持续解决的问题。
反观,基础建设不断扩大,应用需求能否持续更上,是否具备更大的开放应用服务场景,开放服务场景的延申和细化是否又存在多个小微企业进行支撑,能否实现全面推进,其实是一个整体的联动过程,更多的小微企业,民营机构能否进行算力消耗和基础能力的提升,反而是值得考虑的事情。
5、PS:技术方面的一些改进所见
在项目的场景应用规划和设计中与相关企业存在不少交流,其算法和软件的主要优化策略简述如下:
1、自研推理加速,主要是针对垂直大模型的推理进行改进优化,侧重于神经网络运算中的关键路径,由此减少不必要的计算步骤,从而降低对算力的使用需求。
2、部分采用低精度浮点数(如FP8)替代传统的32位或16位浮点数进行计算,可以在保持较高准确度的同时大幅减少内存带宽需求和计算量,从而降低对算力的使用需求。
3、针对一些特定的模型,则采用KVCache稀疏压缩可以显著减少内存占用,降低对性能的消耗。
4、还有一些则是通过样本选择和设计对应的计算顺序来改进加速推理的过程,后续针对结果进行微调或采用训练机进行二次处理。
5、针对具体要的场景也额外同模型方沟通过,通过对模型进行剪枝和量化,在不影响模型性能的前提下显著减小模型体积,从而节省存储空间和计算资源的可能性等问题,但处于未投入的实际应用阶段,后续无果,只能表示存在可能。
6、在智算中心建设的过程中,也许大家认为存在液冷,但实际成本效应基本上没见到,好点的是通过废热回收利用技术,将废热用于供暖或发电,提高能源转换效率,降低整体能耗。再就是,选择气候适宜的地区,充分利用自然冷却资源,减少对机械制冷系统的依赖,进一步降低能耗,相对对应的建设场地和部署环境其实没有想象中的那么美丽。