数据湖技术圈
本期导读 :【 AI 训练加速】第十八讲
主题:Fluid + JindoFS 对海量小文件的训练加速
讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
海量小文件难题
Fluid JindoRuntime 小文件优化
使用 JindoRuntime 加速小文件
演示
直播回看链接:(18讲)
https://developer.aliyun.com/live/247034
1
海量小文件难题
AI 训练场景经常需要处理海量小文件
现状:
RPC 频繁,NameNode 压力大
延时高
延时高
高频访问稳定性
对缓存系统的诉求:
低延时,高 QPS
稳定可靠的访问性能
能够支撑海量文件数
2
Fluid JindoRuntime 小文件优化
JindoRuntime:
高效的元数据缓存:
基于 KV-Store 的元数据组织形式,可支持海量文件数,并且不会占用过多内存资源
高效的元数据查询,并且通过热点缓存进一步加速点查性能
元数据服务(Namespace Service)能够提供低延时、高 QPS 的访问性能
Fuse 客户端缓存
高效的数据组织及索引:
针对小文件数据块实现高性能磁盘存储及索引机制
一致性哈希实现数据块的分布式缓存索引,缩短小文件读取的链路
3
使用 JindoRuntime 加速小文件
JindoRuntime 加速小文件基本步骤
下载并安装 Fluid:
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md创建 Dataset
创建 JindoRuntime
缓存预加载 DataLoad
执行 AI 训练作业
小文件加速效果
参考文章:
《速度提升18倍!微博海量深度学习模型训练效率跃升的秘密》
https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy
相比于 HDFS 接口
1机 4 卡可以得到5 倍的加速
2机 8 卡可以得到9 倍的加速
3机 12 卡可以得到18 倍的加速
训练总时长由原来的389小时(16 天)缩短到了16 小时
4
演示
Fluid JindoRuntime 使用
环境要求:
Kubernetes version > 1.14, 支持 CSI
Golang 1.12+
Helm 3
Fluid 0.6.0
参考文档:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues
演示:对 HDFS 上海量小文件进行访问加速
参考文档:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md
相关文档链接:
Fluid JindoRuntime 使用文档:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
ImageNet 数据集加速测试:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md
InsightFace 数据集加速测试:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md
点击文章下方阅读原文,直接观看第18讲视频回放,获取讲师实例讲解~
⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!