亚马逊云科技在汽车行业实现前沿人工智能应用

关键字: [亚马逊云科技中国峰会2024, Lava, Foundation Model Training, Automotive Customer Data, Internal Data Utilization, Model Training Workflow, Amazon Web Services Infrastructure Efficiency]

本文字数: 1500, 阅读完需: 8 分钟

导读

在”亚马逊云科技中国峰会2024”上,演讲者阐释了”高效训练面向汽车行业的基础模型”。演讲中,他探讨了亚马逊云科技的服务和基础设施如何支持从头开始高效训练基础模型;具体解释了亚马逊云科技允许通过检索、微调和持续训练等方法将客户数据纳入模型训练过程,并针对不同类型的模型(如语言模型、代码生成模型和视觉条件语言模型)优化训练工作流程。该演讲着重阐述了亚马逊云科技如何支持高效训练针对客户数据量身定制的大规模基础模型,加速模型开发和研究,并在汽车行业实现前沿人工智能应用。

演讲精华

以下是小编为您整理的本次演讲的精华,共1200字,阅读时间大约是6分钟。

在一场引人入胜的演讲中,亚马逊云科技的ML/AI主管经理Han揭示了一个引人注目的案例研究,深入探讨了为一家知名汽车客户从头开始训练基础模型的复杂过程。这个故事揭示了客户的宏伟目标、亚马逊云科技实施的创新解决方案,以及通过精心优化训练工作流程实现的卓越效率。

这位汽车客户的旅程始于9个月前,当时他们与亚马逊云科技接洽,提出了一个引人注目的问题:评估在内部构建基础模型的可行性。这位客户拥有一支著名的内部研究小组,致力于发表论文、学习和实验各种模型,包括语言模型、代码生成模型、视觉语言模型以及用于机器人应用的前沿模型。他们的主要目标是获得运营、训练和理解这些模型所需的技能和专业知识,从而能够推进研究的边界,并训练出量身定制的模型以满足他们的特定需求。

出于建立高效AI基础设施的愿望,客户希望测试各种内部和外部用例。在内部,他们旨在探索聊天机器人和编码助手,以提高员工效率。在外部,他们的重点是改善客户体验,尤其是在移动性和机器人领域,这对于一家汽车公司来说至关重要。最关键的是,客户认识到他们庞大的内部数据宝库的价值,其中包括混合语言文档、聊天记录、内部Python代码和机器人训练数据,并希望利用这些数据为基础模型量身定制,以满足他们的特定需求。

为了将客户的专有数据纳入基础模型,亚马逊云科技强调了三种主要方法:检索增强生成、微调和从头开始训练。检索增强生成涉及检索特定的数据片段,为模型提供上下文,从而实现专门的提示工程并定制模型的响应。另一方面,微调涉及改变底层模型的某些层,允许进行领域适应和特定任务或指令调优。从头开始训练是最耗资源的方法,它通过持续训练来学习数据的基本结构,通常采用半监督方法进行下一个标记预测。

亚马逊云科技强调,这些方法所需的数据要求呈指数级增长,检索增强生成需要几十或几百个标记,微调需要数百到数千个文档(数万个标记),而从头开始训练则需要数千亿个标记。

在与汽车客户的合作中,亚马逊云科技对8种不同的模型进行了训练,这些模型的参数范围从10亿到700亿不等,跨越了4个模型系列。首先,亚马逊云科技从头开始训练了开源的LLAMA 2语言模型,参数为7亿、13亿和70亿。其次,他们继续训练了一个最初在英语上训练并针对客户感兴趣的外语进行微调的Stable LM模型。训练数据包括960亿个英语标记、140亿个外语标记和100亿个维基百科标记,以保持英语的准确性,目标是创建一个用于内部使用的混合语言聊天机器人。

亚马逊云科技致力于推进人工智能技术的发展,采取了多项举措来提高模型训练的效率和性能。

首先,亚马逊云科技帮助客户继续训练最初在500亿个代码标记和100亿个Python代码标记上训练的Code Llama模型,通过添加来自Red Pajama数据集的另外1万亿个标记,旨在创建一个内部Python编码伴侣。

其次,亚马逊云科技训练了一种类似于GPT-4或开源Lava模型的多模态指令模型,被称为视觉条件语言模型(VLM)。训练过程采用了两阶段方法:首先使用558,000个图像-标题对训练投影器,然后使用665,000个提示-生成目标对进行指令调优。然而,亚马逊云科技发现,通过测试各种图像生成编码器和语言主干的组合,单阶段方法可以以30%更少的计算量超过最新的Lava 1.5模型。

此外,客户利用76,000个机器人演示轨迹、350小时的交互数据、564个场景和86个任务生成了大型行为模型,目标是通过将问题框架化为transformer、将机器人运动编码为标记并预测下一个运动,从而实现机器人任务规划。

为了实现高效训练,亚马逊云科技专注于三个主要类别:数据处理、模型准备和训练基础设施准备。在数据处理阶段,亚马逊云科技利用Ray分布式计算框架并行加载整个数据集、混洗和标记化数据,将处理1亿个标记的时间从单节点上的16小时和200美元减少到16节点上仅30分钟和50美元,优化效果卓著。

在模型准备方面,亚马逊云科技采用SageMaker Model Parallel实现混合精度训练,将模型精度从FP16降低到FP8,同时保持训练损失。这涉及到交换层并用更高效的实现替换激活函数,从而提高了30%的训练吞吐量。具体而言,亚马逊云科技将受限线性单元(ReLU)激活函数替换为更高效的高斯误差线性单元(GELU)激活函数。

在基础设施准备阶段,亚马逊云科技部署了具有32和64节点的P5实例,以实现并行训练。此外,还利用了SageMaker Model Parallel来实现张量并行化、优化器状态分片和激活检查点,最大限度地利用GPU并实现高效的模型分区和基础设施管理。

通过对训练工作流程进行这些精心的优化,亚马逊云科技实现了训练吞吐量的显著提升,从每GPU每秒7,000个token提高到了令人印象深刻的每GPU每秒12,000个token,几乎提高了100%。

另外,亚马逊云科技的专业知识还扩展到优化模型训练过程本身。例如,在视觉条件语言模型(VLM)的情况下,亚马逊云科技发现采用同时训练投影器和生成器的一阶段方法,可以以30%更少的计算量超过最新的Lava 1.5模型。这是通过在单一框架内测试各种图像生成编码器和语言主干的组合而实现的,从而实现了高效的探索和优化。

此外,亚马逊云科技还展示了其在前沿研究领域的实力,协助客户为机器人任务规划生成大型行为模型。这涉及将问题框架化为transformer,将76,000个机器人运动示范轨迹编码为token,并基于350小时的交互数据、564个场景和86个任务预测下一个运动。这种创新方法为机器人领域的突破性进展铺平了道路,利用了基础模型的强大功能。

总而言之,这个案例研究展现了亚马逊云科技在协助客户从头开始训练基础模型、执行生成式人工智能应用以及利用其专有数据定制模型以满足其特定需求方面的专业知识。亚马逊云科技实施的创新解决方案,如使用Ray进行并行数据处理、使用SageMaker Model Parallel进行混合精度训练、高效的模型并行化,以及机器人任务规划领域的前沿研究,使汽车客户能够显著提高训练吞吐量和性能,以较低的计算要求超越最新的开源模型。这一叙述凸显了亚马逊云科技致力于为客户提供量身定制的前沿人工智能解决方案,为汽车行业乃至更广阔领域的突破性进展铺平道路。

下面是一些演讲现场的精彩瞬间:

在亚马逊云科技中国峰会2024的演讲结束时,演讲嘉宾感谢了工作人员的协助。

7f5abb5c63d60116e61941e1bc497138.jpeg

客户正在建立高效的基础设施,以测试从内部到外部的各种用例,包括提高员工工作效率的聊天机器人和编码助手,以及改善客户体验和移动机器人等前沿应用,并利用内部数据定制化基础模型。

31e34ab03e815b1bd467dee241ab7c98.jpeg

该客户拥有混合语言的内部数据,包括英语和其他外语文档、聊天记录等,还有大量自己编写的Python代码,以及机器人研究方面的训练数据,其中一个目标是开源这些数据。

4a8b18df25a47d66db04cf21b241e0b4.jpeg

在亚马逊云科技中国峰会2024上,演讲者深入解释了模型微调的概念,包括检索增强生成、领域适应性微调,以及指令微调等特定任务微调。

db43b809de3fce182acfadcf42526ba4.jpeg

亚马逊云科技中国峰会2024探讨了如何通过持续训练和大规模计算资源,帮助客户从头训练大型语言模型,学习数据的基本结构和模式。

1ca59437609184c51bdebb7ad5f5f55d.jpeg

在探讨数据需求时,随着从检索增强生成到微调再到从头训练大型语言模型,所需的数据量呈现出指数级增长。

af8492b46fd12254b4abbabb62979a9c.jpeg

亚马逊云科技专家解释了一种新的机器学习模型训练方法,可以将原本需要两个阶段的过程合并为一个阶段,从而大幅减少所需的计算资源。

dd3bd1f16912d26a0511c14effc41b02.jpeg

总结

汽车行业正迅速采纳生成式人工智能(Generative AI)技术,旨在提高内部效率和优化客户体验。本次演讲深入探讨了一个真实案例,亚马逊云科技与某知名汽车企业合作,为其量身定制基础模型,满足该企业独特的数据需求。

该汽车企业希望培养内部培训和运营基础模型的专业知识,充分利用其庞大的内部数据资源,包括混合语言、代码库和机器人数据。亚马逊云科技指导该企业将专有数据纳入各种模型架构中,包括语言模型、代码生成模型和视觉条件语言模型(VLMs)。

值得一提的是,通过对稳定扩散模型进行精心策划的数据集微调,成功培训出一个能够理解和生成英语及外语响应的混合语言聊天机器人。此外,亚马逊云科技还协助培训了一个专注于Python的代码生成模型,通过继续训练开源的CodeLlama模型,利用超过一万亿个代码令牌的数据。

在VLMs方面,亚马逊云科技开创了一种一体化训练方法,将图像编码器与语言主干融合到统一的训练管道中,计算效率比最新的开源Lava模型高出30%。最终目标是赋予该汽车企业培训和基础设施技能,推动研究边界,开发满足其独特需求的前沿模型。

2024年5月29日,亚马逊云科技中国峰会在上海召开。峰会期间,亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务,成为企业构建和应用生成式 AI 的首选。此外,活动还详细介绍了亚马逊云科技秉承客户至尚的原则,通过与本地合作伙伴一起支持行业客户数字化转型和创新,提供安全、稳定、可信赖的服务,以及持续深耕本地、链接全球,助力客户在中国和全球化发展的道路上取得成功。

  • 9
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值