HPC加速的开放合作

HPC加速的开放合作

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Energy HPC Orchestrator, High Performance Computing, Open Collaboration, Energy Industry, Seismic Imaging, Cloud Native]

导读

在本次会议中,客户将了解能源高性能计算编排器(Energy HPC Orchestrator,简称EHO)。EHO是一个创新框架,旨在改变传统能源高性能计算(HPC)应用的执行和运营方式。它提出了一个开放的行业平台和市场,供运营商、软件提供商和学术界提供创新的地震处理、成像、人工智能/机器学习以及其他最先进的HPC算法和工作流程。EHO培育了一个竞争环境,鼓励在云原生框架内进行创新,重点关注可扩展性、容错性、性能优化和成本效率。通过利用最新的云技术,EHO提高了现有系统的效率、可靠性和灵活性。

演讲精华

以下是小编为您整理的本次演讲的精华。

在高性能计算(HPC)不断演进的领域中,亚马逊云科技、能源巨头如Occidental以及科技巨头如NVIDIA和SQA之间展开了一场开创性的合作。这一努力的推动力是打破长期阻碍油气行业采用HPC工作负载的障碍,尤其是在地层应用领域,如地震成像和储层模拟。

这一倡议的起源可以追溯到与Shell和Occidental等能源合作伙伴的构思会议,在那里提出了一个基本问题:我们如何彻底改革公司内部以及整个行业范围内的合作方式,包括解决方案提供商、独立软件供应商(ISV)和学术机构?目标是明确的——利用最新最棒的HPC技术,并将其无缝集成到油气和地层工作负载的工作流程中。

在这一背景下,人工智能(AI)的无处不在存在是无法忽视的。挑战在于将AI无缝集成到现有工作流程中,并赋予客户和工程师快速高效地尝试这种变革性技术的能力。这一前提为合作奠定了基础,合作迅速从书面提案发展为一个完整的产品解决方案,目前正在接受众多运营商和客户的严格测试和评估,并得到来自各种合作伙伴和解决方案提供商的整合。

行业人士都清楚,对HPC的需求不断增加,持续超过内部可用的能力。云计算为爆发式计算和通过重新设计传统方法来促进创新提供了前所未有的机会。然而,迁移这些庞大的工作负载的复杂性不断加剧,这是由算法的增加精度和分辨率以及数据集的指数级增长所驱动的。正如Shahl所说,“我们谈论的是TB级的输入数据,对吧?所以这是相当可观的数据量。”

挑战的关键在于,许多客户已经在几十年的时间里完善了这些工作流程,精心调整以适应他们特定的硬件、软件、网络和环境配置。总体目标是帮助他们为云重新设计这些流程,使他们能够利用混合环境,同时超越当前的限制并采用最新技术。这种方法的核心是采用云原生的HPC思维模式,这是一种范式转变,将在后面深入探讨。

从本质上讲,能源HPC编排器是一种应用程序,它使客户能够通过无缝拖放各种组件来构建低代码和无代码HPC工作流程。这种创新方法允许用户通过将自己的专有定制算法与第三方应用程序和来自市场和学术界的前沿理念相结合,构建一个综合的应用程序和工作流程链。此外,用户可以指定最佳基础设施,无论是CPU、GPU还是基于ARM的,都可以根据HPC工作流程中每个应用程序的独特需求进行定制。

这种细粒度控制至关重要,因为某些算法针对特定的硬件架构进行了优化,而工作流程本身包含许多相互依赖的任务。客户可以灵活地选择和基准测试每个任务最合适的配置,从而实现快速实验和测试。演示将展示这个过程是如何展开的,编排过程在幕后无缝进行,利用无服务器技术。

与软件开发工具包(SDK)的集成是另一个关键方面,因为许多算法,尤其是与机器学习相关的算法,都针对GPU消费进行了优化,以最大限度地提高性能和成本效益。与NVIDIA的合作在这方面发挥了至关重要的作用,使客户能够开发自己的专有算法,并将其无缝集成到利用各种硬件创新的生产工作流程中,从研发的角度来看。

值得注意的一个例子是反时间迁移,这是地震成像中用于全波反演的一种关键算法。这些高度分布式工作负载全年无休地运行,以揭开地下复杂的三维模型。该系统将工作流程分解为容错的微服务,每个微服务都有明确定义的输入和输出,通过亚马逊云科技服务(如Lambda和队列系统)进行编排。这种解耦方法与传统的紧密耦合、单体执行模型形成鲜明对比,实现了更高效的数据移动和基于事件的任务之间的检查点。

这一合作不仅仅局限于亚马逊云科技及其客户,EPAM作为关键的市场推广合作伙伴,在构建用户界面和用户体验(UI/UX)方面发挥了重要作用。目前正在努力纳入更多指标和遥测数据,包括每个工作流程组件的成本预测,进一步增强解决方案的功能。

当讨论转向Occidental的观点时,他们的代表Klaus阐明了这一合作带来的变革性影响。从历史上看,Occidental一直羡慕像Shell这样的行业巨头拥有强大的内部HPC能力,这需要大量投资于设备、工程专业知识和软件开发——对于较小的运营商来说,这种投资往往是无法承受的。正如Klaus所说,“这对我们来说是不可能的。因此,有了像亚马逊云科技这样的云提供商提供的巨大机会,您只需在需要时为CPU付费,并采用全新的无服务器计算任务运行理念,我们就有可能进入地震成像这一领域。”

虽然他们可以选择自行开发一切,但他们共同认识到,大部分工作实际上并非专有组件,如数据收集、I/O数据库和工作流程,这促使他们决定在一个可供所有人访问的通用框架上进行合作。“正如您在介绍中所说,我们都认识到,实际上很大一部分工作并非秘密源代码,而是I/O数据库、工作流程等可自由共享且无人视为特别竞争优势的内容,”Klaus解释道。

这种方法的好处已经初见成效,因为Occidental现在可以将自己的专有算法与第三方应用程序相结合,快速实验不同的硬件配置并基准测试性能。能够在合理的预算内使用自动统计和机器学习方法调整数百个参数,为创新和实验开辟了新的途径——这在过去是无法实现的奢侈。

来自NVIDIA的Mark也赞同了这一观点,强调了开放生态系统对于满足能源行业多样化需求的重要性。“工作负载的不同部分发展速度不同,作为一家真正专注于构建生态系统的公司,能源行业的生态系统非常广泛,有很多人专注于不同的领域,”他说。能够为特定的地层和环境量身定制工作负载至关重要,因为全球各地的地下条件可能差异很大。

NVIDIA作为一家平台公司在这方面发挥了关键作用,使能源公司能够选择最适合自身需求的工具。虽然超级大型公司已经开发出满足自身需求的强大技术,但较小的运营商和独立软件供应商(ISV)通常会为特定客户群或特定地层提供服务。“我认为这个解决方案堆栈确实允许公司根据Mark的解释,真正选择最佳技术,并在他们能够添加差异化的地方这样做,”这个编排器平台使这些实体能够为目标市场构建和定制工作流程,从而推动整个行业的创新。

集成人工智能(AI)和机器学习(ML)工作负载是另一个关注领域,因为编排器有助于将这些尖端技术无缝纳入传统的HPC工作流程。NVIDIA在推广微服务方面的影响力以及即将推出的NIMS演示凸显了他们对未来的信念,即不同的模型将并存,包括AI和HPC领域,能够在最佳架构上运行不同的工作流程组件——CPU用于更适合并行处理的任务,GPU用于高度可并行化的计算。

Nick来自SQA技术供应商,阐述了他们在这一合作中的参与以及获得的好处。作为业界领先的全波形反演算法(即地震成像的基石)的开发商,SQA认识到通过让能源公司在自己的数据集上评估其算法,可以迅速发展其业务。虽然已发表的案例研究可能会引起兴趣,但真正的价值主张在于让客户能够运行试点项目,并从概念验证无缝过渡到商业部署——这是他们与Occidental成功实现的壮举。“我们现在有机会真正成为一家成长型公司,但能源行业希望看到他们自己数据的结果,我们可以发布其他客户的案例研究让我们进入大门,但他们希望运行试点项目,而能源HBC编排器允许我们高效地运行这些试点项目,并将这些试点项目转化为实际的商业许可证,这是我们已经成功地与Occidental合作完成的,”Nick解释道。

能源HPC编排器通过允许高效执行试点项目和基准测试,并利用亚马逊云科技的基础设施产品(如Graviton实例)在经济高效的框架内进行基准测试,从而促进了这一过程。在预算限制内实验和创新的能力是一个游戏规则改变者,因为一口井的成本可能轻易达到数百万美元,因此必须不懈地追求优化和效率。

Graviton作为亚马逊云科技的基于Arm的定制硅,在这方面成为了一个引人注目的解决方案。Nick强调了客户驱动的Graviton采用,因为运营商可以将SQA的算法与其他CPU架构进行基准测试,并见证切实的性能优势。与编排器的容错点实例管理的无缝集成进一步放大了成本节约,使得在分配的预算内进行更广泛的参数调优和实验成为可能。“我们还致力于使编排完全容错,因此我们使用点实例。现在这对于FWM来说是一种常态,但至少这是非常显著的成本节约,”Nick说。

来自NVIDIA的Mark强调了在HPC和AI工作负载背景下,能源效率和环境可持续性的重要性。基于Arm架构(如Graviton)和NVIDIA的GPU的组合提供了一个最佳解决方案,与NVIDIA减少这些计算密集型操作对环境影响的重点保持一致。NVIDIA与亚马逊云科技合作即将推出的Grace Hopper和Grace Blackwell产品,将进一步提高每美元性能和每瓦特性能,这对于大规模运营的能源公司来说是一个关键考虑因素。

随着讨论的深入,与会者探讨了在编排器框架内集成机器学习、生成式AI和分布式神经网络训练。来自Occidental的Klaus设想了一个现代化的AI驱动界面指导用户完成工作流程的未来,建议使用适当的模块及其执行顺序,超越了行业中普遍存在的传统框框和箭头方法。“在上面贴一些聊天机器人或生成式AI,指导用户完成工作流程并建议使用特定模块和这些模块的运行顺序,这将非常容易,”Klaus建议道。

正在进行令人兴奋的研究工作,旨在通过机器学习组件来增强现有的基于物理的模型推导,在某些情况下可能绕过确定性计算的需求,利用数据驱动的捷径。正如Klaus所说,“有几项有趣的研究工作正在进行,例如,正在研究Nick所说的这种哲学模型推导是否可以通过机器学习阶段来增强,在这种情况下,可能并不是每次都确定性地计算所有方程,而是可以在最后做一些捷径。”

此外,将神经网络与全波形反演(FWI)算法相集成具有巨大的前景,能够在传统FWI算法接管之前对数据进行预处理,开辟了优化和性能提升的新途径。“显然能够直接插入神经网络是非常有利的,”Nick肯定地说。

演示展示了能源HPC编排器的实际运行力量,演示了创建地震成像工作流程的过程。从项目设置和预算分配开始,处理序列逐步展开,突出了速度模型生成(FWI)和反射率计算(RTM)之间的相互依赖关系——这两个都是地下成像的关键组成部分。

在加载参数后,编排器会根据输入数据自动配置算法,为高效执行和收敛奠定基础。工作流程无缝地从速度模型生成过渡到反射率计算,并提供了使用编排器灵活性来尝试替代RTM算法的选项。

虽然演示展示了一个简化的工作流程,但来自SQA的Nick强调,现实世界中的反演序列要复杂得多,通常涉及同时生成多个地下属性,而不仅仅是速度和反射率。“在现实中,一个令人信服的序列要复杂得多,现在这只是一个演示,旨在突出一个反演序列的基础,但要获得最高质量的结果,全波形反演算法实际上正在生成不同的属性。它可能是速度,也可能是反射率。它还可以是地下其他参数,”他解释道。

编排器能够根据各种收敛指标可视化和验证这些结果,这一点至关重要,确保运营商对最终输出有信心,这最终将为关键钻井决策提供信息。“这确实是关键问题,在这方面我们实际上付出了很多努力,创建了不同的指标来告诉你结果有多好,这正是我们的客户作为运营商所需要的。他们需要对最终结果有信心,”Nick补充道。

地震成像的发展步伐从未停止,需要不断的创新和实验循环。编排器经济高效的基础设施使这一迭代过程成为可能,允许使用自动统计和机器学习方法对数百个参数进行微调,而且在合理的预算限制内。

展望未来,与会者设想编排器将促进将各种HPC工作负载整合到地震成像和储层模拟之外。诸如计算流体动力学、碳储存模拟、地热能勘探,甚至锂勘探等应用都可以利用这种解耦的微服务方法,推动整个能源行业的创新。正如Nick所说,“我们的算法正被用于地热能源、碳储存,甚至现在离岸锂勘探。离岸风电场,你仍然需要做大量地震勘探。”

亚马逊云科技、能源巨头以及NVIDIA和SQA等技术领导者之间的合作,代表了HPC在能源行业民主化的一个范例转变。通过将整体工作流程分解为模块化的云原生组件,编排器使各种规模的公司都能够获得尖端技术,根据自身独特需求定制解决方案,并通过集成新兴能力(如AI和机器学习)快速创新。这个开放、协作的生态系统有望在效率、可持续性和技术进步方面开辟新的前景,塑造未来几年能源行业的发展方向。

下面是一些演讲现场的精彩瞬间:

演讲者介绍了现代化高性能计算(HPC)的主题,并概述了议程,包括产品背后的挑战、技术和愿景。

254b48316838888fbd7dd5cfafd40cdc.png

庆祝成功实施S Cube秘密源成像算法和NVIDIA能源SDK,标志着他们旅程中的一个重大里程碑。

7541da7bc9f6bd14516cb189eaf76d83.png

屏幕录像展示了一个地震成像工作流程,包括项目设置、处理序列、速度建模(FWI)和反射率生成(RTM),用于地下成像。

bb2c9f595c7658a6e360b6a819acc88c.png

演讲者强调通过先进的反演技术和收敛度指标生成准确的地下模型的重要性,使得运营商对最终结果有信心。

69b36266984f2ce1bb9dd5797c101962.png

揭开他们先进算法的秘密,该算法克服了局部极小值,并实现了复杂的反演序列,从而做出了经过实际井数据验证的准确钻井决策。

ae59f5550955ac317fd64fe263f8b073.png

亚马逊云科技强调了与EPAM合作,为其云迁移解决方案构建UI/UX体验并添加成本预测功能。

52f0c7d07e237f9eb9234589eb2acaf7.png

演讲者暂停,以了解观众的反应和理解程度。

e1edf1a5adaa0a781eebb2158354288c.png

总结

亚马逊云科技、能源公司和技术合作伙伴之间的合作旨在为石油和天然气行业革新高性能计算(HPC)。通过利用云端能力,他们寻求消除进入壁垒,促进跨公司协作,并将尖端技术如人工智能无缝集成到地下工作流程中,如地震成像和储层模拟。

能源HPC编排器解决方案允许客户尝试不同算法、优化参数,并为其特定需求选择最佳工具,同时受益于经济高效且可扩展的云端基础设施。它支持最佳实践方法,将来自各种供应商的专门算法组合成为量身定制的工作流程,以适应独特的地下环境。

人工智能和机器学习技术的集成有望增强传统HPC方法,可能带来更准确的结果、更快的创新周期以及更好的钻探和碳捕获运营决策。通过利用云计算的力量、Graviton等定制硅和NVIDIA GPU以及协作开发,该计划旨在推动能源行业的效率、经济性和可持续性。

总的来说,能源HPC编排器使公司能够重新构想其HPC工作流程、利用最新进展并在不断演进的能源格局中开启勘探、生产和环境管理的新可能性。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值