前言
推荐系统通常分为召回和排序两个步骤
- 召回:粗排选取合适的内容,可以通过协同过滤,兴趣tag,内容最热等方式
- 排序(CTR预估):使用一个点击率预估模型(输入用户特征,内容特征,用户内容交叉特征等)对召回出来的内容进行排序
1、CTR预估
CTR预估是推荐中最核心的算法之一。
- 相关概念:
- CTR预估:对每次广告的点击情况做出预测,预测用户是点击还是不点击。
- CTR预估的影响因素:比如历史点击率、广告位置、时间、用户等。
- CTR预估模型:综合考虑各种因素、特征,在大量历史数据上训练得到的模型,用来学习和预测用户的反馈,用户的反馈主要有点击、收藏、购买等。
- 应用场景
- 计算广告
- 推荐系统
- 信息流排序
2、数据准备
讨论的是数据已经经过预处理。
-
one-hot编码:
CTR预估模型的特征数据往往包含多个特征,one-hot编码表示这些特征,将多个特征对应的编码向量链接在一起构成特征向量。
数据特点:- 高维度
- 稀疏
- 多类别
-
Embedding表示
- embedding学习一个低维稠密的实数向量,即将位数较多的稀疏数据压缩到位数较少的空间。
- 将one-hot编码处理成一个固定维度的嵌入向量表示,减少了计算、处理和存储等方面资源。
-
特征工程:
特征组合对于效果非常关键。- 自动
- 人工
特征和模型之间的关系图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1SWmGeX-1646555782122)(https://note.youdao.com/yws/res/b/WEBRESOURCE6810e02bde9511782a3481baa05adc1b)]
3、CTR预估模型
3.1 传统CTR模型演化关系图
- 向下为了解决特征交叉的问题,演化出PLOY2,FM,FFM等模型;
- 向右为了使用模型化、自动化的手段解决之前特征工程的难题,Facebook将LR与GBDT进行结合,提出了GBDT+LR组合模型;
- 向左Google从online learning的角度解决模型时效性的问题,提出了FTRL;
- 向上阿里基于样本分组的思路增加模型的非线性,提出了LS-PLM(MLR)模型
3.2 深度学习CTR模型演化关系图
3.3 算法比对与总结
出现的变量定义:
- n: 特征个数,所有特征one-hot后 连接起来的整体规模大小
- f: 特征field个数,表示特征类别有多少个
- k: embedding层维度,在FM中是隐向量维度
- H1: 深度网络中第一个隐层节点个数,第二层H2,以此类推。
各种CTR深度模型看似结构各异,其实大多数可以用如下的通用范式来表达,
-
input->embedding:
把大规模的稀疏特征ID用embedding操作映射为低维稠密的embedding向量 -
embedding层向量
concat, sum, average pooling等操作,大部分CTR模型在该层做改造 -
embedding->output:
通用的DNN全连接框架,输入规模从n维降为k*f维度甚至更低。
4、CTR预估的评价指标
4.1 线下评价指标
- LogLoss对数损失
主要用于评估模型输出概率与训练数据的概率的一致程度,可以理解为logloss越小模型预估的ctr越准。- KL散度
- 交叉熵
- 二分类的常用评价指标
- FP rate
- TP rate
- 精确率precision
- 召回率recall
- 准确率accuracy
- ROC
- AUC :主要评估的是模型对于整体样本的排序能力
- pCTR bias(mean(pctr) - CTR):平均预估CTR偏差
离线主要看这三个:AUC, LogLoss,pCTR bias
4.2 在线评价指标
- 在线使用AB Test来验证点击率预估模型的有效性
- 分桶平均预估CTR(pCTR)和实际CTR(aCTR),对比关系画出来就行了,理想状态下应该是一条斜率为1的线。
5、总结
- ctr预估中的大多数输入都是离散而且高维的,特征也分散在少量不同的field上。要解决这样的一个深度学习模型,面临的第一个问题是怎么把输入向量用一个embedding层降维成稠密连续的向量
- ctr预估领域方法变化层出不穷,但万变不离其宗,各种模型本质上还是基础组件的组合,如何结合自己的业务、数据、应用场景去挑选合适的模型应用,可能才是真正的难点所在。
参考信息:
1、 深度学习在CTR预估中的应用
https://zhuanlan.zhihu.com/p/35484389
2、推荐算法之4——CTR预估模型
https://zhuanlan.zhihu.com/p/76897076
3、推荐算法—ctr预估
https://blog.csdn.net/qq_34219959/article/details/103822973