hfai深度学习套件
文章平均质量分 89
幻方萤火深度学习套件【hfai toolkit】,是幻方 AI 多年深度学习经验的集成,以任务级分时调度共享 AI 超算的理念将 10000 张 A100 整合成一台超级计算机,充分发挥澎湃如海的算力。
幻方AI小编
让天才想法落地
展开
-
hfai 心法总章 | 快速上手攻略
整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。为此,我们专门创建了 “hfai 使用心法” 系列专辑,陆续为大家介绍 hfai 一些功能的设计思路和原理,帮助大家更快上手 hfai,游刃有余得应对深度学习作业的各项挑战。整个套件的功能较多,而熟悉掌握了这套规则,是能够轻松地调用起平台的算力资源,从而高效完成训练任务的。一套专门为数据集量身定制的“神功”,解决大规模的训练数据,上传、管理和部署。运转数据入萤火训练的不二法门。自建镜像,环境配置的最后绝招。原创 2022-12-19 16:58:29 · 186 阅读 · 0 评论 -
haiscale | 幻方萤火高性能并行训练工具库
haiscale (Highflyer AI Scale) 是一个轻量级的高性能并行训练工具库,其整合了幻方 AI 多年的并行训练研发优化经验,能够帮助 PyTorch 用户更加高效、便捷地在大规模集群上训练模型。原创 2022-12-12 16:35:00 · 318 阅读 · 0 评论 -
hfai images | 自建镜像,环境配置的最后绝招
之前的文章为大家介绍了使用 hfai venv 构建运行环境和执行任务,然而对于一些特殊的场景,如强化学习、物理仿真等,单单通过安装 Python 依赖已不足以满足需求。研究者往往会构建项目特有镜像。如何将这类需求在萤火集群上支持是幻方 AI 研发者们在思考研究的问题。最近,hfai images 功能面世,为研究者和开发者们提供了一套解决此类方法的绝招。本期文章将为大家详细介绍。原创 2022-11-25 13:18:50 · 391 阅读 · 0 评论 -
hfai.pl | 兼具萤火集群优化特性的 PyTorch Lightning
Pytorch Lightning(简称 pl) 是在 PyTorch 基础上进行封装的库,它能帮助开发者脱离 PyTorch 一些繁琐的细节,专注于核心代码的构建,在 PyTorch 社区中备受欢迎。hfai.pl 是 high-flyer 对 pl 的进一步封装,能更加轻松的适配各种集群特性,带来更好的使用体验。本文将为大家详细介绍优化细节。原创 2022-11-21 14:16:03 · 745 阅读 · 0 评论 -
幻方萤火 | 一行代码,自动调参
调参是深度学习中的必经过程,研究者们往往需要花费大量的时间进行调参,以获取最好效果的模型参数。对于参数规模不大的小模型,手工运行实验进行参数调优还是可以接受的方法,但当遇上大模型时,只凭人工进行参数优化就会变得难以实操,也难以高效利用GPU集群的强大算力。为了解决这一问题,幻方 AI 基于萤火集群的特性,研发了一套辅助调参工具——Autotune。用户只需要设定好参数搜索范围,在幻方萤火集群上发起训练,Autotune 会自动帮您尝试所有的参数组合,合理分配算力进行测试,最后统计输出不同参数下的模型表现。原创 2022-09-23 13:35:02 · 800 阅读 · 0 评论 -
有点意思的小工具|JupyterLab TensorBoard Pro
对于深度学习开发者和研究者们来说,TensorBoard 是帮助理解深度学习运行机理,训练可视化和调试的重要工具。最近,幻方 AI 开发并集成了 JupyterLab TensorBoard 插件(JupyterLab TensorBoard Pro),帮助大家在使用幻方萤火超算集群训练模型的同时,也可以方便快捷地使用 Tensorboard 工具进行深度学习训练的调试。原创 2022-08-08 13:51:07 · 866 阅读 · 0 评论 -
hfai workspace│打通本地与萤火之间的任督二脉
本次文章为大家介绍 hfai workspace,其旨在同步本地工程目录代码到远程萤火超算中,更丝滑地利用萤火超算的算力运行您的项目工程。原创 2022-07-20 10:29:27 · 265 阅读 · 0 评论 -
hfai venv | 运行环境的影分身术
上一招式为大家介绍了 hfai workspace,其可以帮助用户快速同步本地工程目录代码到远程萤火超算中。但是在实际的作业中,我们还会碰到另外一个问题——运行环境的同步怎么处理?这跟上一招式讲到的“本地-萤火,数据通路”其实是一套组合拳,那么本次“心法”就为大家介绍 hfai venv,“本地-萤火,环境共享”——快速实现运行环境的集群部署。原创 2022-08-09 15:37:50 · 356 阅读 · 0 评论