萤火跑模型 | 高性能 Stable Diffusion 助力高质量 AI 绘图 幻方 AI 近期在萤火二号上使用 Google Caption 数据集复现了 Stable Diffusion 的训练,并进行了优化。通过幻方自研的hfai.pl插件将源代码 Pytorch Lightning 框架与萤火集群的特性轻松整合,并通过 3FS、hfreduce、算子等优化工具对模型训练提速。本文将分享我们对 Stable Diffusion 训练优化的心得体验,帮助研究者和开发者们降低研究门槛。
hfai 心法总章 | 快速上手攻略 整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。为此,我们专门创建了 “hfai 使用心法” 系列专辑,陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更快上手 hfai,游刃有余得应对深度学习作业的各项挑战。整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。一套专门为数据集量身定制的“神功”,解决大规模的训练数据,上传、管理和部署。运转数据入萤火训练的不二法门。自建镜像,环境配置的最后绝招。
haiscale | 幻方萤火高性能并行训练工具库 haiscale (Highflyer AI Scale) 是一个轻量级的高性能并行训练工具库,其整合了幻方 AI 多年的并行训练研发优化经验,能够帮助 PyTorch 用户更加高效、便捷地在大规模集群上训练模型。
萤火跑模型 | 多卡并行实现 YOLOv5 高性能训练 总的来说,完整的 hfai 相比原始训练方式有将近 50% 的训练提速,这得益于优秀的训练数据集管理,高速存储系统和优良的算子与通信能力;与轻量版 hfai 对比中,我们可以明显看到,在使用同样的数据加载模式下,hfreduce 和 hfai 优化算子充分利用加速卡计算资源,加速的具体表现为整体有近 20% 的进一步提速。YOLOv5 作为目标检测领域的旗舰模型,受到了广泛的关注。我们借助幻方萤火集群,很轻松地实现了集群特性与这套新的开发模式的打通,获得明显的加速效果,证明了萤火集群的易用性和实力。
hfai images | 自建镜像,环境配置的最后绝招 之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。
hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning Pytorch Lightning(简称 pl) 是在 PyTorch 基础上进行封装的库,它能帮助开发者脱离 PyTorch 一些繁琐的细节,专注于核心代码的构建,在 PyTorch 社区中备受欢迎。hfai.pl 是 high-flyer 对 pl 的进一步封装,能更加轻松的适配各种集群特性,带来更好的使用体验。本文将为大家详细介绍优化细节。
萤火跑模型 | 分布式训练大规模深度图神经网络 幻方AI最近尝试对图神经网络的并行训练进行优化,以 OGB 图数据集作为训练样本,在幻方萤火集群上复现 DeepGCNs 的实验。基于幻方自研的3FS、hfreduce等工具,采用灵活的分布式训练方法,进行不同任务场景下的 GNN 训练提速,取得预期效果。本期文章将为大家详细描述。
如何在 MM-* 框架上无缝使用 ffrecord 幻方AI针对mmdetection, mmsegmentation 等广受研究者欢迎的 mm-* 系列框架下ffrecord的转化进行了优化,提供了 FFRecordClient 接口。用户能够在配置文件中选择使用 FFRecordClient 来替换默认的读取后端。那么 FFRecordClient 和之前的 ffrecord 有什么不同?它具体该如何使用?本期文章将为大家分享。
萤火跑模型 | 英伟达元宇宙创造营 GET3D 英伟达的最新工作 GET3D 希望训练更好的 3D 生成模型,来生成下游任务可以直接使用的、保真纹理和复杂几何细节的 3D 模型。幻方 AI 最近对这项工作进行了整理和优化,在幻方萤火二号上复现了实验,本期文章将为大家详细描述。
NeurIPS 2022 | 能量函数指导的图图翻译扩散模型 最近来自人民大学李崇轩课题组的研究者们提出了一种基于能量函数的扩散模型生成指导方法 EGSDE。该方法旨在通过预定义的能量函数对预训练好的扩散模型进行指导,从而实现可控生成。现有指导生成方法如 classifier-guidance 等可以理解为 EGSDE 的特例。理论上,研究者从专家乘积(PoE)的角度解释了 EGSDE 的采样分布。值得一提的是,该项目利用了幻方AI深度学习训练平台的算力及加速性能,在无监督的图到图翻译任务上进行了大量实验。
hfai datasets | 运转数据入萤火训练的不二法门 幻方 AI 在不久前发布了沉淀多年的深度学习套件 hfai ,集成了幻方对集群性能及易用性提升进行的大量开发。整个套件的功能较多,而熟悉掌握了这套规则,就能够轻松地调用起平台的算力资源,高效完成训练任务。为此,我们专门创建了 “hfai 使用心法”系列专辑,分集陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更好更快地习得心法,带着 hfai 这套“神功”游刃有余的应对深度学习作业的各项挑战,举重若轻、例不虚发。
萤火跑模型 | 多卡并行助力 BEVFormer 三小时全精度训练 感知系统是自动驾驶系统中不可或缺的部分,系统中包括许多视觉任务,例如目标检测分割、目标跟踪、语义和实例分割、车道线检测等等。感知系统通过对周围环境状态的准确估计,为预测、规划等下游任务提供重要的依据。其中如何利用车载环视相机采集到的多个视角图像,实现精准的 3D 目标检测和分割是感知系统中最为基础且重要的任务。
幻方萤火 | 一行代码,自动调参 调参是深度学习中的必经过程,研究者们往往需要花费大量的时间进行调参,以获取最好效果的模型参数。对于参数规模不大的小模型,手工运行实验进行参数调优还是可以接受的方法,但当遇上大模型时,只凭人工进行参数优化就会变得难以实操,也难以高效利用GPU集群的强大算力。为了解决这一问题,幻方 AI 基于萤火集群的特性,研发了一套辅助调参工具——Autotune。用户只需要设定好参数搜索范围,在幻方萤火集群上发起训练,Autotune 会自动帮您尝试所有的参数组合,合理分配算力进行测试,最后统计输出不同参数下的模型表现。
幻方萤火 | 显存节省利器 CPUOffload hfai.nn.CPUOffload 为什么可以节省显存?如何使用?它和 PyTorch 原始版本有何不同?本期文章将为大家分享 CPUOffload 设计背后的故事,讲述幻方 AI 设计 CPUOffload 的理念,展现 CPUOffload 的性能和便捷。
在幻方追寻热爱,在「萤火」定义极限 D哥,大学读的是物理,却误打误撞进入了计算机的世界,目前在幻方负责萤火二号的运维。谈及他最近“不务正业”的折腾——自己写操作系统,D哥表示,这一切都源自物理人对这个世界的好奇和求根问底。正是这份好奇,让他永远充满寻求why的热情;正是这份求根问底,让他在直面最复杂的技术难题时,仍能保持游刃有余。
幻方斜杠青年W:金牌收割机/内推王/王者小国标 W同学,游泳业余三级运动员,平时最爱在公司健身房打乒乓球;游戏爱好者,王者荣耀弈星小国标,皇室战争准职业水平;周末喜欢在家钻研厨艺,也爱和朋友们一起桌游。两年前,他从北大毕业,来到了幻方。
模型实践| Informer 上手实践 近年来的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer也存在几个问题,使其不能直接适用于LSTF问题,例如时间复杂度、高内存使用和“编码-解码”体系结构的固有局限性。为了解决这些问题,作者基于Transformer设计了一种适用于LSTF问题的模型,即Informer模型,该模型具有三个显著特征:ProbSpare self-attention机制,有效降低了时间复杂度和内存使用量。