面对 Nvidia 的主导地位：非大型科技公司的敏捷机器学习开发策略（在供应和成本挑战中）-CSDN博客

本文链接：https://blog.csdn.net/weixin_46083783/article/details/136840402

在这里插入图片描述

在真正的大玩家中建立游戏业务从来都不是一件容易的事。 2023 年，在真正令人费解的突破的推动下，人工智能领域的竞争达到了前所未有的高度。 OpenAI 的发布 GPT-4, 整合与 Bing 聊天 GPT, 谷歌推出诗人，以及Meta备受争议的“开源” 骆驼2 发布。听起来像是一长串大人物的名单，对吧？尽管听起来令人兴奋，但大多数创新都在于资金流向，而规模较小的科技公司必须经历的竞争日益激烈。

在科技行业不断发展的格局中，英伟达继续巩固其作为人工智能基础设施关键参与者的地位。期间 8月份财务报告电话会议NVIDIA 总裁黄仁勋强调了对 Nvidia 处理器不断飙升的需求。这一说法得到了来自以下机构的确认的支持 Nvidia 第三季度业绩 r 演示收入数据，这揭示了令人印象深刻的同比业绩记录，这一点早在 11 月份就已显现出来。与此同时，Gartner 的预测表明未来四年芯片支出将大幅增加。目前，英伟达的软件堆栈和处理器无与伦比，这让业界不确定何时会出现可靠的竞争对手。

来自的最新报告彭博和 “金融时报” OpenAI 首席执行官 Sam Altman 与中东投资者就启动芯片生产进行谈判，旨在减少 AI 行业对 Nvidia 芯片的依赖。挑战市值近 1.5 万亿美元的英伟达，奥特曼可能会付出以下代价： 5万亿美元和7万亿美元并需要几年的时间。

尽管如此，解决商业机器学习模型的成本效益是公司现在必须做的事情。对于大型科技领域之外的企业来说，开发具有成本效益的机器学习模型不仅仅是一个业务流程，更是一项至关重要的生存策略。本文探讨了四种务实的策略，使各种规模的企业能够在无需大量研发投资的情况下开发自己的模型，并保持灵活性以避免供应商锁定。

英伟达为何称霸人工智能市场

长话短说，Nvidia 通过高性能 GPU 与其专有模型训练软件堆栈（广受好评的 CUDA 工具包）之间的协同作用，创建了理想的模型训练工作流程。

CUDA（于 2007 年推出）是一个全面的并行计算工具包和 API，用于优化利用 Nvidia GPU 处理器。它如此受欢迎的主要原因是其无与伦比的加速复杂数学计算的能力，这对于深度学习至关重要。此外，它还为深度神经网络提供了 cuDNN 等丰富的生态系统，从而提高了性能和易用性。它对于开发人员来说至关重要，因为它与主要深度学习框架无缝集成，可实现快速模型开发和迭代。

事实证明，如此强大的软件堆栈与高效硬件的结合是占领市场的关键。尽管有些人认为英伟达的主导地位可能只是暂时现象，但在当前形势下很难做出这样的预测。

英伟达主导地位的沉重代价

Nvidia 在机器学习开发领域占据上风引发了诸多担忧，不仅是在伦理不仅如此，研发预算差距不断扩大，这也是小企业进入市场变得更加困难的原因之一，更不用说初创企业了。再加上由于风险较高而导致投资者兴趣下降，以及收购大量研发的任务（就像英伟达的那些）投资变得完全不可能，创造了一个非常非常不公平的竞争环境。

然而，这种对英伟达硬件的严重依赖给供应链一致性带来了更大的压力，并带来了中断和供应商锁定的风险，从而降低了市场灵活性并提高了市场进入壁垒。

“一些公司正在汇集现金，以确保他们不会让用户陷入困境。随着公司试图削减 GPU 需求，“优化”和“更小模型尺寸”等工程术语在各地都很流行，今年投资者已在初创公司上投入了数亿美元，这些公司的软件可以帮助公司利用 GPU 来维持生计。”

非大型科技公司可以适应英伟达的主导地位的策略：

1.开始探索AMD的RocM
AMD 一直在积极缩小与 NVIDIA 的 AI 开发差距，这一壮举是通过其对 Rocm 的持续支持而实现的。 PyTorch 的主要库在过去的一年。这一持续的努力提高了兼容性和性能，突出表现在 MI300芯片组，AMD最新发布。 MI300 在大型语言模型 (LLM) 推理任务中表现出强大的性能，特别是在 LLama-70b 等模型上表现出色。这一成功凸显了 AMD 在处理能力和效率方面取得的重大进步。
2.寻找其他硬件替代品
除了AMD的进步之外，谷歌推出张量处理单元（TPU），专门设计用于加速机器学习工作负载的专用硬件，为训练大规模人工智能模型提供了强大的替代方案。

除了这些行业巨头之外，Graphcore 和 Cerebras 等规模较小但有影响力的企业也为人工智能硬件领域做出了显着的贡献。 Graphcore 的智能处理单元 (IPU) 专为提高 AI 计算效率而定制，因其在高性能任务中的潜力而受到关注，如下所示：推特的实验。另一方面，大脑是凭借先进芯片突破界限，强调人工智能应用程序的可扩展性和原始计算能力。

这些公司的集体努力标志着人工智能硬件生态系统正在向更加多样化的方向转变。这种多元化提供了减少对 NVIDIA 依赖的可行策略，为开发人员和研究人员提供了更广泛的 AI 开发平台。

3.开始投资性能优化
除了探索硬件替代方案之外，优化软件被证明是减轻英伟达主导地位影响的关键因素。通过利用高效的算法、减少不必要的计算并实施并行处理技术，非大型科技公司可以最大限度地提高现有硬件上的机器学习模型的性能，从而提供一种实用的方法来弥补差距，而无需仅仅依赖昂贵的硬件升级。

Deci Ai 的 AutoNAC 技术就体现了这种方法。这项创新已证明能够将模型推理加速 3-10 倍，这一点得到了广泛认可的证实 MLPerf 基准测试。通过展示这些进步，很明显软件优化可以显着提高机器学习开发的效率，为减轻 Nvidia 在该领域的主导地位的影响提供了一种可行的替代方案。

4.开始与其他组织合作创建去中心化集群
这种协作方法可以包括共享研究成果、共同投资替代硬件选项以及通过开源项目促进新机器学习技术的开发。通过分散推理和利用分布式计算资源，非大型科技公司可以创造公平的竞争环境，并在机器学习开发行业中创造更具竞争力的格局。

如今，共享计算资源的战略正在整个科技行业蓬勃发展。 Google Kubernetes Engine (GKE) 通过支持集群多租户、实现高效的资源利用以及与第三方服务的集成来证明了这一点。 Petals 等社区主导的举措进一步证明了这一趋势，Petals 提供了用于运行 AI 模型的分布式网络，无需大量投资即可实现高性能计算。此外，Together.ai 等平台提供对各种开源模型的无服务器访问，从而简化开发并促进协作。考虑此类平台可以让您获得计算资源和协作开发机会，从而帮助优化您的开发流程并降低成本，无论组织规模如何。