蚂蚁金服核心技术：百亿特征实时推荐算法揭秘

阿里云云栖号

于 2019-02-22 10:04:29 发布

阅读量1.1k

点赞数

文章标签：监控算法在线学习

本文链接：https://blog.csdn.net/yunqiinsight/article/details/87872662

版权

文章提出一整套创新算法与架构，通过对TensorFlow底层的弹性改造，解决了在线学习的弹性特征伸缩和稳定性问题，并以GroupLasso和特征在线频次过滤等自研算法优化了模型稀疏性。在支付宝核心推荐业务获得了uvctr的显著提升，并较大地提升了链路效率。

0.综述

在线学习(Online learning)由于能捕捉用户的动态行为，实现模型快速自适应，进而成为提升推荐系统性能的重要工具。然而它对链路和模型的稳定性，训练系统的性能都提出了很高的要求。但在基于原生TensorFlow，设计Online推荐算法时，我们发现三个核心问题：

一些资讯推荐场景，需要大量长尾词汇作为特征，需使用featuremap对低频特征频次截断并连续性编码，但耗时且方法aggressive。

使用流式数据后，无法预知特征规模，而是随训练逐渐增长。因此需预留特征空间训练几天后重启，否则会越界。

模型稀疏性不佳，体积达到数十GB，导致上传和线上加载耗时长且不稳定。

更重要的是，在线学习如火如荼，当流式特征和数据都被打通后，能按需增删特征，实现参数弹性伸缩的新一代训练平台成为大势所趋。为了解决这些问题，从2017年底至今，蚂蚁金服人工智能部的同学，充分考虑蚂蚁的业务场景和链路，对TensorFlow进行了弹性改造，解决了以上三大痛点，简化并加速离线和在线学习任务。其核心能力如下：

弹性特征伸缩体系，支持百亿参数训练。

group_lasso优化器和频次过滤，提高模型稀疏性，明显提升线上效果。

模型体积压缩90%，完善的特征管理和模型稳定性监控。

在与业务线团队的共同努力下，目前已在支付宝首页的多个推荐场景全流量上线。其中某推荐位的个性化online learning桶最近一周相比线上多模型融合最优桶提升4.23% ，相比随机对照提升达34.67% 。某个性化资讯推荐业务最近一周，相比DNN基准uv-ctr提升+0.77%，pv-ctr提升+4.78%，模型体积压缩90%，链路效率提升50%。

弹性改造及优势

背景：在原生TensorFlow中，我们通过Variable来声明变量，若变量超过了单机承载的能力，可使用partitioned_variables来将参数分配到不同机器上。但必须指定shape，声明后即不可改变，通过数组索引查找。

由于推荐系统中大量使用稀疏特征，实践中一般采取embedding_lookup_sparse一类的方法在一个巨大的Dense Variable中查找向量并求和，来代替矩阵乘法。开源Tensorflow限定了Variable使用前必须声明维度大小，这带来了两个问题：

1）需要预先计算特征到维度范围内的int值的映射表，这一步操作通常在ODPS上完成。因为需要扫描所有出现的特征并编号，计算非常缓慢；

2）在online learning场景下，为了容纳新出现的特征，需要预留一部分维度空间，并在线上不断修改映射表，超过预留空间则需要重新启动在线任务。

为了突破固定维度限制，实现特征的动态增加和删除，最朴素的优化想法是在TensorFlow底层实现模拟字典行为的Variable，并在此基础上重新实现Tensorflow上层API。由此我们进行了优化，在server新增了基于HashMap的HashVariable，其内存结构如下：

在声明该变量时，只需增加一句，其他训练代码皆不需改动：

每个特征都通过hash函数映射到一个2的64次方大小的空间内。当需要计算该特征时，PS会按需惰性创建并返回之。但其上层行为与原生TF一致。由于去掉了featuremap转ID的过程，我们内部形象地将其称为“去ID化”。在此之上我们实现了Group Lasso FTRL，频次过滤和模型压缩等一系列算法。

备注：弹性特征带来一个显著的优势：只要用足够强的L1稀疏性约束，在单机上就能调试任意大规模的特征训练，带来很多方便。我们的hashmap实现是KV化的，key是特征，value是vector的首地址。

离线训练优化<