NVIDIA专家全面解析Merlin，GPU加速的推荐系统解决方案速速查收

腾讯广告算法大赛

于 2021-06-30 11:56:36 发布

阅读量642

点赞数

分类专栏：腾讯广告腾讯算法大赛

本文链接：https://blog.csdn.net/weixin_45676602/article/details/118358218

版权

NVIDIA的王泽寰解析了Merlin，一个针对推荐系统的大规模模型训练解决方案。Merlin的HugeCTR支持大模型训练，利用模型并行和Embedding Training Cache处理10TB以上模型。NvTabular加速数据读取，提升性能可达原TF DataReader的24倍。针对小batch，Merlin优化了GPU利用率。推荐系统训练建议使用高密度服务器以优化通信效率。Merlin官网提供更多信息。

摘要由CSDN通过智能技术生成

为拓宽选手们的技术视野，腾讯广告算法大赛官方邀请 NVIDIA 及腾讯的技术大咖，倾力打造了“技”高一筹系列专题直播。在6月10日的直播中，NVIDIA 亚太 AI 开发者技术解决方案经理王泽寰，对 NVIDIA 最新推荐系统解决方案 Merlin 进行全面解析，并对选手们的疑问进行了详细解答。这份来自技术大咖的“干货”，请查收！

直播 FAQ

Q1：Merlin 是否支持 10TB 以上的模型训练？

A：Merlin HugeCTR 专门为大模型训练设计了模型并行的Embedding层和Embedding Training Cache （Model Oversubscription）机制。通过模型并行 Embedding 层，我们将Embedding拆分到多个 GPU、多个节点从而充分利用多GPU的显存用来存储大模型。而 Embedding Training Cache 通过将完整的 Embedding 存储在外存中，并将每个子训练集（比如一个月的数据）中用到的 Feature 缓存在GPU中，可以充分利用训练数据的局部性减少对 GPU 显存的消费从而通过一台或几台机器完成 10TB 模型的训练。

Q2：训练数据读取太慢，怎么办？

A：Merlin NvTabular 重新实现了 TensorF