幻方AI训练平台
文章平均质量分 88
幻方对常用AI模型的核心算子进行优化,针对集群的硬件特性,定制了深度学习训练框架、通信方式等,无感提速模型训练,将效率至高提升6倍。
幻方AI小编
让天才想法落地
展开
-
幻方AI年度总结:2022我们坚持了一件事情
我们希望让更多“想象力”和“创造力”生长。期待与各方科学家及开发者们一同共建AI时代。原创 2023-01-13 13:33:09 · 407 阅读 · 0 评论 -
haiscale | 幻方萤火高性能并行训练工具库
haiscale (Highflyer AI Scale) 是一个轻量级的高性能并行训练工具库,其整合了幻方 AI 多年的并行训练研发优化经验,能够帮助 PyTorch 用户更加高效、便捷地在大规模集群上训练模型。原创 2022-12-12 16:35:00 · 318 阅读 · 0 评论 -
萤火跑模型 | 多卡并行实现 YOLOv5 高性能训练
总的来说,完整的 hfai 相比原始训练方式有将近 50% 的训练提速,这得益于优秀的训练数据集管理,高速存储系统和优良的算子与通信能力;与轻量版 hfai 对比中,我们可以明显看到,在使用同样的数据加载模式下,hfreduce 和 hfai 优化算子充分利用加速卡计算资源,加速的具体表现为整体有近 20% 的进一步提速。YOLOv5 作为目标检测领域的旗舰模型,受到了广泛的关注。我们借助幻方萤火集群,很轻松地实现了集群特性与这套新的开发模式的打通,获得明显的加速效果,证明了萤火集群的易用性和实力。原创 2022-12-09 17:09:27 · 1274 阅读 · 0 评论 -
hfai images | 自建镜像,环境配置的最后绝招
之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。原创 2022-11-25 13:18:50 · 391 阅读 · 0 评论 -
hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning
Pytorch Lightning(简称 pl) 是在 PyTorch 基础上进行封装的库,它能帮助开发者脱离 PyTorch 一些繁琐的细节,专注于核心代码的构建,在 PyTorch 社区中备受欢迎。hfai.pl 是 high-flyer 对 pl 的进一步封装,能更加轻松的适配各种集群特性,带来更好的使用体验。本文将为大家详细介绍优化细节。原创 2022-11-21 14:16:03 · 747 阅读 · 0 评论 -
如何在 MM-* 框架上无缝使用 ffrecord
幻方AI针对mmdetection, mmsegmentation 等广受研究者欢迎的 mm-* 系列框架下ffrecord的转化进行了优化,提供了 FFRecordClient 接口。用户能够在配置文件中选择使用 FFRecordClient 来替换默认的读取后端。那么 FFRecordClient 和之前的 ffrecord 有什么不同?它具体该如何使用?本期文章将为大家分享。原创 2022-11-04 16:36:07 · 272 阅读 · 0 评论 -
hfai datasets | 运转数据入萤火训练的不二法门
幻方 AI 在不久前发布了沉淀多年的深度学习套件 hfai ,集成了幻方对集群性能及易用性提升进行的大量开发。整个套件的功能较多,而熟悉掌握了这套规则,就能够轻松地调用起平台的算力资源,高效完成训练任务。为此,我们专门创建了 “hfai 使用心法”系列专辑,分集陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更好更快地习得心法,带着 hfai 这套“神功”游刃有余的应对深度学习作业的各项挑战,举重若轻、例不虚发。原创 2022-10-14 16:27:22 · 313 阅读 · 0 评论 -
幻方萤火 | 显存节省利器 CPUOffload
hfai.nn.CPUOffload 为什么可以节省显存?如何使用?它和 PyTorch 原始版本有何不同?本期文章将为大家分享 CPUOffload 设计背后的故事,讲述幻方 AI 设计 CPUOffload 的理念,展现 CPUOffload 的性能和便捷。原创 2022-09-14 10:14:47 · 1080 阅读 · 0 评论 -
数据模型可训不可见?hfai同态加密深度学习训练实践
通过本次实践,我们验证了同态加密的可行性,其在保障数据在外部的计算资源隐私安全的同时,会极大得影响训练的性能。目前同态加密处于不断研究优化的过程中,相信未来会有更多优化且可商用的技术突破和方案。我们将持续关注该领域的发展。原创 2022-08-29 10:39:27 · 1759 阅读 · 0 评论 -
hfai python | 任务提交任意所至,萤火训练行云流水
上两个招式为大家介绍了 hfai workspace 和 hfai venv,其可以帮助用户快速同步本地工程目录代码和环境到远程萤火超算中。而这套组合拳下来,其实我们可以认为是“蓄力”和“提气”的过程,接下来就是“神功”最核心的部分,本次文章将为大家介绍 hfai python,其可以帮助大家方便快捷地发起、管理训练任务。原创 2022-08-19 10:26:20 · 522 阅读 · 0 评论 -
幻方萤火 | 并行训练中的快速保存与加载 hfai.checkpoint
分布式训练中模型的保存,特别是大模型,常常需要耗费很多的时间,降低了整体的 GPU 利用率。针对这类问题,幻方 AI 进行了攻关,优化过往深度学习模型单机训练保存的方法,研发出分布式 checkpoint 方案,大幅度降低模型保存与加载上的开销。原创 2022-08-16 13:25:39 · 394 阅读 · 0 评论 -
幻方萤火 | 高性能数据格式 ffrecord
在之前的文章《幻方萤火 | 高速读写文件系统 3FS》中提到,幻方AI自研了一套适合深度学习模型训练场景的文件读写系统3FS,能提供高性能的批次数据读取,提高模型的训练效率。对于用户而言,使用3FS非常简单,只需要掌握我们封装设计的高性能数据格式,ffrecord,将数据存入幻方萤火超算平台中即可。那么ffrecord和一般的数据格式有什么不同?它应该要有哪些设计要求呢?本期文章将为大家分享ffrecord设计背后的故事,讲述幻方AI设计ffrecord的理念,展现ffrecord的高性能和便捷。原创 2022-03-25 11:07:38 · 191 阅读 · 0 评论 -
幻方萤火 | 模型并行训练工具 hfreduce
hfreduce是幻方AI自研的高速模型并行训练工具,是幻方AIHPC“萤火二号”计算存储分离后,计算服务中的重要一环,根据萤火二号的集群特性专为计算节点设计的All Reduce工具。本质上hfreduce相当于 PyTorch 中的 DistributedDataParallel(DDP),只不过使用 CPU 做加法运算以计算总梯度,而不是调用其他的集体通信库(CCL),比如说 NCCL,传递梯度到不同的显卡上,再各自计算总梯度。原创 2022-03-15 10:21:53 · 378 阅读 · 0 评论 -
幻方萤火 | 性能卓越的深度学习算子 hfai.nn
通过优化CUDAkernel和模型结构,融合多运算操作,幻方AI优化的深度学习算子在实际测试中表现出惊人的加速效果,优化的算子与幻方AI基础设施结合,让模型训练高效迅速,计算资源充分利用,加速更多场景的探索与研究。...原创 2022-07-19 17:15:08 · 585 阅读 · 0 评论