NVIDIA专家全面解析Merlin,GPU加速的推荐系统解决方案速速查收

NVIDIA的王泽寰解析了Merlin,一个针对推荐系统的大规模模型训练解决方案。Merlin的HugeCTR支持大模型训练,利用模型并行和Embedding Training Cache处理10TB以上模型。NvTabular加速数据读取,提升性能可达原TF DataReader的24倍。针对小batch,Merlin优化了GPU利用率。推荐系统训练建议使用高密度服务器以优化通信效率。Merlin官网提供更多信息。
摘要由CSDN通过智能技术生成

图片

为拓宽选手们的技术视野,腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖,倾力打造了“技”高一筹系列专题直播。在6月10日的直播中,NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰,对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析,并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”,请查收!

直播 FAQ

Q1:Merlin 是否支持 10TB 以上的模型训练?

A:Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache (Model Oversubscription)机制。通过模型并行 Embedding 层,我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中,并将每个子训练集(比如一个月的数据)中用到的 Feature 缓存在GPU中,可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练

Q2:训练数据读取太慢,怎么办?

AMerlin NvTabular 重新实现了 TensorF

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值