0. 前言
前几天看到有人吹自己做了“五年的AI智算云”。可是,GPT也才火了三年啊……
本文主要跟不懂云计算的朋友们谈谈,“AI智算云”(或者“GPU云”、“AI算力云”)是一条能诞生新厂商的新路。但该场景下的云产品云技术,和传统云厂商没有重大差异,甚至过分强调“AI”属性,反而是在缘木求鱼——会爬树的攀鲈鱼,那不是树而是鱼。
如果是很懂云计算的朋友,请移步这一篇文章《云计算和AI有毛关系》。
1. 智算云吹的牛,传统云都吹过
从产品对内和技术实现的角度看,“AI智算云”中“算力云”的概念,是标准云主机、标准裸金属做的常规产品迭代,而“AI智算”这几个宣传名词,不过是实习生拍大腿就拍出来的雅称。
现在自称看好AI智算云的人,特别喜欢闭眼瞎吹“业务”“架构”“平台”“自动化”“安全”“创新”“赋能”等等高大上的概念,并带着自豪感说其他云厂商都是“传统云”……
这也是一种轮回。“传统云厂商”在10年前行业初创期,同样因为无知所以无畏,也是用上文几个空炮言辞来忽悠外界,动不动要给客户来个云化赋能、云化转型。
最终,大家还是要做正事的,空炮忽悠最耽误的还是自己人。
2. 早就有AI产品、技术和资源
AI智算云所需要的产品、技术和资源,简单来说就是:“机框机柜+GPU网卡+预装AI框架+可选代维服务+网络连通性”。这些产品都有现成的,而且确实都五年以上了……
2018年,鉴黄和人脸都是很成熟的应用了。谁能说这不是AI?2020年,云游戏、高配云桌面、离线渲染云也已经很成熟了。确实,打游戏和绘图渲染不是AI应用,但是,这些业务使用的GPU资源池,是不是跟AI硬件池几乎一模一样?
大家别吹那些预装AI框架的含金量了,云主机做出各种商业镜像和开源镜像,这是基操勿666。对于自研AI模型、AI算子优化等等根正苗红的AI工作,你们不做云,那就是云厂商的供应商和客户;你们要做云,所谓的技术优势最多也就能持续一两年,你们能快速把技术优势转化为产品优势,把产品优势转化为市场优势吗?
我的书稿和公众号都说过,东数西算的西部节点网络延迟太高了,唯一的优势就是电费便宜。但是,国运来了谁都挡不住,大模型就是耗电大户,而且大模型会话慢吞吞的,根本不太在意网络延迟……
3. 大模型和旧AI的区别不大
很多人会说,过去的AI和现在的大模型不同。从云厂商的角度看,大模型AI智算云和过去的AI云主机只在网络上有明显区别,其他差异只是例行产品演进。
大模型所需的AI智算云,唯一的重大创新就是模型训练时的网络。做模型训练时,AI群集需要把内网IO当总线IO来使用,群集内网需要以近乎满载的状态长期维持一个大IO低延迟网络。这确实是巨大的产品和技术进步,涉及自研硬件、优化通讯库和通讯协议。
我为这种网络进步特地写了一篇《硬核软文》,其他云厂商也在几个月后快速跟进。但这个网络不是AI智算专用网络,其他场景如果需要这么快的网络,一样可以照搬复制。
除网络之外,大模型对云产品的需求很普通很标准。现在模型推演普遍使用的是绑定GPU的云主机,连GPU虚拟化都未普及,由负载均衡和K8S完成请求调度和容错。从云平台的角度看,这就是一些乖宝宝用户。我为此还特地写了一篇《AI云缺客户侧运维指南》。
我当然知道,AI智算云还要完成诸如:GPU虚拟化、供应链角色转换、新硬件适配、IDC改造、AI框架维护、存储性能强化、工作流编排、针对模型调优等等一大堆工作。上述工作中,有很多工作我也实操过,甚至就是为智算云实操的,展开吹我也能写几万字。但是,这些都只是兵来将挡的例行应对,并没有什么本质性的产品和技术变化。
4. 开源引燃了智算行业
我过去并不刻意追捧AI智算云,即使在抢卡高潮期,《我的书稿》第27页依旧是这样写的:
AI创新应用的技术门槛和资源门槛都偏高,主要参与者都是一些大型互联网企业。这类企业有很强的采购议价能力,不会给云厂商留太大的利润空间。
但是,在DeepSeek和一众开源大模型的冲击下,市场环境发生了有益的变化。仅仅两个月时间,各种“AI一体机”就卖了上千台了。这证明AI云的目标受众,从几十个巨头大佬变成了几万个普通的企事业单位。大家可以回想一下,4G刚刚普及、千播大战、手游大战期间,云厂商面对成千上万的中型客户,生活是多么滋润惬意。
云计算需要同时为客户提供“产品+资源+服务”,特别面对产品未定型、需求不收敛的新赛道,每个云厂商能够主动高效服务的也就几十个客户。所以我认为AI新赛道大概率也能带来新厂商。世面上有从CDN、安全、云存储、RTC等细分领域入门的云厂商,自然也可以有从AI智算云这个细分领域入场的新厂商。
5. AI云的主语不是AI而是云
AI智算云,主语也是“云”,AI智算只是装饰。会爬树的攀鲈鱼,那不是树而是鱼。
我们可以打着AI智算的招牌圈客户,也可以用AI技术投入来提高云产品的竞争力和利润率,但是智算云的底层运营逻辑,智算云要创造硬核营收和盈利,还是要按照标准云主机的套路来做。
要创造大额营收,无论设计成IaaS还是PaaS产品,定价依据都要锚定到算力资源上,而非锚定到AI软件商。客户不会为AI软件付费,因为《软件本来就不值钱》,云厂商天生克制各种中后台商业软件。AI软件的主要价值类似于虚拟化软件和CDN软件,软件的进步可以提高运营效率和保证产品毛利。
所有的云产品,都要同时提供“产品+资源+服务”。不要过于吹嘘自家的技术,因为这是个无法论证的黑洞,所有友商都能张嘴说自己的技术是最好的。事实上,云产品上线以后,产品技术差可以用资源来遮瑕、资源差可以用服务来遮羞、而服务差可以用产品技术来挽尊。这才是云计算最有趣的地方。