3FS概览
3FS是幻方AI自研的高速读写文件系统,是幻方AIHPC“萤火二号”计算存储分离后,存储服务中的重要一环,全称是萤火超算文件系统(Fire-Flyer File System),因为有三个连续的 F,因此被简称为 3FS。
3FS 是一个比较特殊的文件系统,因为它几乎只用在AI训练时计算节点中的模型批量读取样本数据这个场景上,通过高速的计算存储交互加快模型训练。这是一个大规模的随机读取任务,而且读上来的数据不会在短时间内再次被用到,因此我们无法使用“读取缓存”这一最重要的工具来优化文件读取,即使是超前读取也是毫无用武之地。因此,3FS的实现也和其他文件系统有着比较大的区别。
本期文章将为大家解密幻方AI是如何设计与实现3FS的,以及最终能实现的模型训练加速效果。幻方现已开放AI训练平台,关注幻方AI公众号“HighFlyerAI”,体验幻方的AI加速。
硬件设计
3FS文件系统整体的硬件设计如下图展示: