为自动驾驶机器人出租车提供动力的Zoox机器学习基础设施
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Zoox, Autonomous Driving Robot Taxis, Machine Learning Infrastructure, Perception Prediction Models, Simulation Scenario Generation, Data Infrastructure S3]
导读
Zoox的使命是为每个人提供更安全、更清洁、更愉快的个人交通方式。Zoox旨在通过在密集的城市环境中提供出行即服务来实现这一目标。以其最近在拉斯维加斯部署的专用自动驾驶出租车为例。在本次演讲中,了解他们如何构建支持自动驾驶和其他机器学习用例的机器学习基础设施。听取关于如何从自动驾驶出租车收集数据,以及该公司如何利用各种开源软件工具和亚马逊云科技服务构建其计算、训练和服务基础设施的背景信息。
演讲精华
以下是小编为您整理的本次演讲的精华。
在不懈追求革新个人交通的道路上,Zoox利用机器学习的力量来解决诸多复杂的挑战。在其自动驾驶能力的核心,是一个先进的感知系统,充当机器人出租车的眼睛和耳朵。通过融合尖端传感器,包括摄像头、热成像摄像头、激光雷达、雷达,甚至麦克风,Zoox的感知模型能够实时跟踪和分类数百个动态物体,精度惊人。
这一壮举在Zoox分享的一段引人入胜的视频中得到了体现,其感知系统展现出在复杂的城市环境中检测和分类物体的非凡能力。从行人横穿多条车道到出租车无视车道线,该系统无缝识别并响应这些错综复杂的场景。此外,它展示了不仅能检测车辆前方的行人,还能检测广角范围内的行人,包括远左和远右的行人。感知模型甚至能识别行人的手势,如示意机器人出租车等待或继续前行,进一步提高了车辆安全高效导航的能力。
除了物体检测,Zoox的感知系统还擅长识别可能影响安全的潜在干扰因素。在旧金山繁华的街道上,该系统可以轻松识别专注于手机或拍摄照片和视频的行人,确保机器人出租车能够主动预测和响应此类情况。
在感知系统奠定的基础之上,Zoox的预测系统接过接力棒,负责预测未来几秒内检测到的行为体的轨迹和行为。通过考虑多种潜在的未来情况,这些模型可以预测行人是否会向左或向右转弯,或附近车辆可能行驶的方向。这种预测能力对于机器人出租车规划行动和顺利通过动态环境至关重要。
Zoox自动驾驶系统的规划组件随后根据感知和预测的输出确定机器人出租车的最佳路径和行动。它负责安全舒适地将乘客从A点运送到B点,做出如变更车道、加速或刹车等关键决策。规划者扮演着战略大脑的角色,为机器人出租车在错综复杂的城市交通中导航规划路线。
作为冗余和安全的额外层,Zoox采用了一个端到端的防撞系统,作为最后的保障。该系统独立执行感知、预测和规划任务,充当冗余机制,预测和避免可能未被主AI系统考虑到的潜在碰撞。它检测道路障碍物、占用网格,并生成替代路线,确保乘客和其他道路使用者在最具挑战的情况下的最大安全。
Zoox的防撞系统不仅仅是物体检测,还深入涉及诸如检测占用网格等复杂任务,包括识别车辆占用的车道并预测其未来位置。通过预测潜在冲突并生成替代路线,该系统充当重要的保障,确保机器人出租车能够在最复杂的情况下安全导航,不会损害安全。
虽然自动驾驶是Zoox运营的关键组成部分,但机器学习也渗透到公司运营的许多其他方面。一个值得注意的用例是用于场景定义的生成式AI,利用基于扩散的模型架构来创建模拟场景,以验证AI系统。这种方法类似于ChatGPT等系统中的提示工程,使Zoox能够生成大量符合特定需求的场景,取代传统的人工生成场景方法,实现更大的可扩展性和效率。
此外,Zoox正在构建基础模型来处理一系列任务,包括识别有趣的AI验证场景、数据挖掘、问题分类以及复制边缘案例。这些模型有助于场景理解,使Zoox能够从其机器人出租车产生的大量数据中提取有价值的见解。例如,Zoox可以利用这些模型识别特定的感兴趣场景,如某条街道上行人较多的不受保护的左转弯,并将这些场景作为基准来验证其AI系统的性能。
在数据挖掘领域,Zoox的基础模型使他们能够筛选机器人出租车捕获的大量视频数据,根据特定标准识别和提取相关片段。这种能力对于识别边缘案例、分析具有挑战性场景的性能以及持续提高自动驾驶系统的鲁棒性至关重要。
此外,这些基础模型在分类问题和复制边缘案例方面发挥着关键作用,使Zoox的工程师能够快速识别错误或异常的根本原因,并复制它们以进行进一步分析和解决。通过自动化这些过程,Zoox可以加快创新步伐,不断完善其AI系统,确保其始终处于自动驾驶技术的前沿。
为了支持这些多样化的机器学习用例,Zoox开发了一个强大的ML基础设施,旨在缩短从模型开发到部署的端到端时间。该基础设施由四个关键组件组成:数据基础设施、训练基础设施、服务基础设施以及计算和存储基础设施。
Zoox的数据基础设施建立在Apache Spark、Amazon Athena、Amazon S3和Amazon OpenSearch Service等坚实的技术基础之上。它解决了数据管理、可发现性、可用性和治理等关键挑战。Zoox遵循勋章架构,数据流经青铜、白银和黄金表,实现高效存储、转换和访问,以满足机器学习和分析需求。
Zoox数据基础设施的核心是一个登陆S3表,作为机器人出租车收集的所有车辆和乘客数据的中央存储库。这些数据来自各种来源,包括实时乘客数据的Kafka流和车辆数据的S3存储桶。通过将这些信息整合到一个位置,Zoox简化了推动其机器学习工作的数据处理和分析工作流程。
Zoox的数据基础设施广泛利用Apache Spark来创建机器学习用例的训练数据集。这个强大的分布式处理框架使Zoox能够处理机器人出租车产生的大量数据,对其进行转换和准备以供模型训练。此外,Amazon Athena为Zoox提供了临时数据分析能力,使他们能够从数据湖中提取见解并进行探索性分析。
在数据存储和检索领域,Zoox利用Amazon OpenSearch Service的力量,这是一项可扩展的托管服务,用于运行OpenSearch集群。该服务在存储和搜索嵌入式向量方面发挥着关键作用,使Zoox能够执行最近邻搜索,并通过对其庞大数据存储库进行语义嵌入来促进数据挖掘任务。
Zoox的训练基础设施建立在PyTorch、Ray和Jax等开源框架的基础之上,针对大规模数据集和复杂模型架构进行了优化。为了加速训练并提高GPU利用率,Zoox采用了数据并行、分片等技术,并利用Elastic Fabric Adapter (EFA)实现高效的多节点通信。
认识到协作和可重复性的重要性,Zoox维护了一个模型存储库,跟踪所有训练过的模型及其元数据,如训练数据集、模型架构以及训练时间、错误率和数据加载时间等运营指标。这个中央存储库使Zoox的ML从业者能够共享工作、重现实验并在彼此的成功基础上建立。
Zoox的训练基础设施还包含了强大的实验跟踪功能,允许ML从业者精确记录和重现实验。这一功能对于保持一致且可重复的工作流程至关重要,使Zoox能够快速迭代和完善模型,同时确保透明度和问责制。
在模型服务方面,Zoox采用了两管齐下的方法,针对自动驾驶用例的独特需求进行量身定制。在车辆上,他们利用NVIDIA的TensorRT生态系统来优化推理延迟和性能,这是实时自动驾驶场景中的关键因素。通过将PyTorch模型转换为NVIDIA TensorRT格式,Zoox可以利用专用硬件加速的力量,确保其模型每秒可以运行多次,延迟最小。
在云端,Zoox在Amazon Elastic Kubernetes Service (EKS)上使用RayServe构建了一个服务基础设施,RayServe是一个可扩展和灵活的模型服务库。该基础设施支持CPU和GPU架构,使Zoox能够利用最适合其各种模型的硬件资源。RayServe的自动扩展功能允许Zoox根据需求动态调整计算资源,确保高效利用资源和优化成本。
此外,RayServe的模型多路复用功能为Zoox提供了将多个具有相似输入类型的模型加载到同一组副本中的能力,从而减少了模型初始化的开销,进一步优化了资源利用率。对于Zoox来说,这一功能尤为宝贵,因为他们经常需要同时提供各种模型以支持自动驾驶和辅助用例。
支撑这些组件的是建立在亚马逊云科技服务(如EC2、EKS、S3和FSx)之上的强大计算和存储基础设施。Zoox利用开源资源管理器Slurm来调度工作流程并管理计算资源。这个强大的工具使Zoox能够实现基于优先级的调度,确保关键工作负载能够获得所需资源,包括在出现高优先级任务时抢占低优先级作业。
为了编排复杂的机器学习工作流程,Zoox利用了广为采用的工作流管理系统Apache Airflow。该平台允许Zoox的机器学习从业人员定义和调度数据管道、模型训练任务和其他相关工作流程,从而简化了机器学习模型的端到端开发和部署过程。
下面是一些演讲现场的精彩瞬间:
亚马逊云科技高级解决方案架构师Avinash Kaluri开场祝贺与会者并自我介绍。
自动驾驶系统的规划组件决定了机器人出租车从A点到B点时应采取的安全舒适的行动,例如变道、加速或刹车。
亚马逊云科技正在为识别人工智能验证的挑战性场景和从机器人出租车视频中进行数据挖掘等任务构建基础模型。
Zoox强调了高效数据管理的重要性,利用Amazon S3智能分层来优化自动驾驶数据湖的存储成本和数据保留策略。
亚马逊云科技提供了类似于预订酒店房间的日历界面,可以轻松选择日期并查看供应ML容量块的可用性。
Amazon S3智能分层通过分析访问模式并在不同存储层之间移动数据,自动优化数据存储成本。
演讲者强调了容量块和演练的可用资源,以及Zoox网站上关于自动驾驶用例和发布的信息。
总结
在这个引人入胜的叙述中,我们深入探讨了Zoox这家处于自动驾驶技术前沿的先锋公司。他们雄心勃勃的愿景是通过引入专门为乘客而非驾驶员设计的全自动电动机器人出租车,彻底革新个人交通方式。这种变革性的方法旨在提高安全性,减少排放,并缓解城市拥堵。
Zoox创新的核心在于其复杂的机器学习基础设施,为无数关键用例提供动力。从检测和分类道路上动态物体的感知模型,到预测这些行为体未来行为的预测模型,再到为机器人出租车规划最安全、最高效路线的规划器,机器学习都是自动驾驶的驱动力。此外,Zoox还利用生成式人工智能进行场景创建、基础模型进行数据挖掘和场景理解,以及分拣模型来识别和解决错误。
为支持这个庞大的机器学习生态系统,Zoox精心打造了一个健壮的基础设施,包括数据、训练、服务以及计算和存储组件。他们建立在Amazon S3和Delta表之上的数据基础设施,确保了高效的数据管理、可发现性和治理。利用PyTorch Lightning和Ray的训练基础设施,可以快速实验和开发大规模模型架构。由NVIDIA TensorRT和RayServe驱动的服务基础设施,优化了车载和云端用例的推理延迟。最后,由亚马逊云科技服务(如EC2、EKS和FSx)支持的计算和存储基础设施,为这些工作负载提供了可扩展的基础。
Zoox为自动驾驶汽车公司构建机器学习基础设施的独特方法,涉及广泛的模拟用于模型验证、高效利用GPU来处理峰值工作负载,以及严格的推理延迟要求。亚马逊云科技服务,如ML Capacity Blocks、S3 Intelligent Tiering和FSx for Lustre,在加速Zoox的创新方面发挥着关键作用,实现了成本效益高的GPU采购、优化的数据存储和低延迟模型训练。
随着Zoox继续推动自动驾驶技术的发展,他们对创新的坚定承诺,加上亚马逊云科技的强大支持,为个人交通更安全、更清洁、更令人愉悦的未来铺平了道路。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。