阿里巴巴开源大规模稀疏模型训练/预测引擎DeepRec

阿里云云栖号

于 2022-03-24 16:50:20 发布

阅读量784

点赞数

分类专栏：云栖号技术分享文章标签：阿里巴巴开源

本文链接：https://blog.csdn.net/yunqiinsight/article/details/123715261

版权

简介：经历6年时间，在各团队的努力下，阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源，助力开发者提升稀疏模型训练性能和效果。

作者 | 烟秋
来源 | 阿里技术公众号

经历6年时间，在各团队的努力下，阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源，助力开发者提升稀疏模型训练性能和效果。

一 DeepRec是什么

DeepRec(PAI-TF)是阿里巴巴集团统一的大规模稀疏模型训练/预测引擎，广泛应用于淘宝、天猫、阿里妈妈、高德、淘特、AliExpress、Lazada等，支持了淘宝搜索、推荐、广告等核心业务，支撑着千亿特征、万亿样本的超大规模稀疏训练。

DeepRec在分布式、图优化、算子、Runtime等方面对稀疏模型进行了深度性能优化，同时提供了稀疏场景下特有的Embedding相关功能。

DeepRec项目从2016年开发至今，由阿里巴巴集团内AOP团队、XDL团队、PAI团队、RTP团队以及蚂蚁集团AIInfra团队共建，并且得到了淘宝推荐算法等多个业务算法团队的支持。DeepRec的研发也得到了Intel CESG软件团队、Optane团队和PSU团队，NVIDIA GPU计算专家团队及Merlin HughCTR团队的支持。

二 DeepRec架构设计原则

在TensorFlow引擎上支持大规模稀疏特征，业界有多种实现方式，其中最常见的方式是借鉴了ParameterServer的架构实现，在TensorFlow之外独立实现了一套ParameterServer和相关的优化器，同时在TensorFlow内部通过bridge的方式桥接了两个模块。这个做法有一定的好处，比如PS的实现会比较灵活，但也存在一些局限性。

DeepRec采取了另一种架构设计方式，遵循“视整个训练引擎为一个系统整体”的架构设计原则。TensorFlow是一个基于Graph的静态图训练引擎，在其架构上有相应的分层，比如最上层的API层、中间的图优化层和最下层的算子层。TensorFlow通过这三层的设计去支撑上层不同Workload的业务需求和性能优化需求。

DeepRec也坚持了这一设计原则，基于存储/计算解耦的设计原则在Graph层面引入EmbeddingVariable功能；基于Graph的特点实现了通信的算子融合。通过这样的设计原则，DeepRec可以支持用户在单机、分布式场景下使用同一个优化器的实现和同一套EmbeddingVariable的实现；同时在Graph层面引入多种优化能力，从而做到独立模块设计所做不到的联合优化设计。

三 DeepRec的优势

DeepRec是基于TensorFlow1.15、Intel-TF、NV-TF构建的稀疏模型训练/预测引擎，针对稀疏模型场景进行了定制深度优化，主要包含

最低0.47元/天解锁文章

阿里云云栖号

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
阿里巴巴开源大规模稀疏模型训练/预测引擎DeepRec

简介：经历6年时间，在各团队的努力下，阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源，助力开发者提升稀疏模型训练性能和效果。作者 | 烟秋来源 | 阿里技术公众号经历6年时间，在各团队的努力下，阿里巴巴集团大规模稀疏模型训练/预测引擎DeepRec正式对外开源，助力开发者提升稀疏模型训练性能和效果。一 DeepRec是什么DeepRec(PAI-TF)是阿里巴巴集团统一的大规模稀疏模型训练/预测引擎，广泛应用于淘宝、天猫、阿里妈妈、高德、淘特、AliExpress、
复制链接

扫一扫