3、CTR预估相关介绍

nsq_ai

已于 2022-06-05 11:57:16 修改

阅读量5k

点赞数 6

分类专栏：流量&搜广推文章标签： python

于 2022-03-06 16:36:43 首次发布

本文链接：https://blog.csdn.net/weixin_45063703/article/details/123312628

版权

11 篇文章 4 订阅

订阅专栏

推荐系统通常分为召回和排序两个步骤

CTR预估是推荐中最核心的算法之一。

相关概念：
- CTR预估：对每次广告的点击情况做出预测，预测用户是点击还是不点击。
- CTR预估的影响因素：比如历史点击率、广告位置、时间、用户等。
- CTR预估模型：综合考虑各种因素、特征，在大量历史数据上训练得到的模型，用来学习和预测用户的反馈，用户的反馈主要有点击、收藏、购买等。
应用场景
- 计算广告
- 推荐系统
- 信息流排序

讨论的是数据已经经过预处理。

one-hot编码：
CTR预估模型的特征数据往往包含多个特征，one-hot编码表示这些特征，将多个特征对应的编码向量链接在一起构成特征向量。
数据特点：
- 高维度
- 稀疏
- 多类别
Embedding表示
- embedding学习一个低维稠密的实数向量，即将位数较多的稀疏数据压缩到位数较少的空间。
- 将one-hot编码处理成一个固定维度的嵌入向量表示，减少了计算、处理和存储等方面资源。
特征工程：
特征组合对于效果非常关键。
- 自动
- 人工

特征和模型之间的关系图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P1SWmGeX-1646555782122)(https://note.youdao.com/yws/res/b/WEBRESOURCE6810e02bde9511782a3481baa05adc1b)]

出现的变量定义：

各种CTR深度模型看似结构各异，其实大多数可以用如下的通用范式来表达，

离线主要看这三个：AUC, LogLoss，pCTR bias

ctr预估中的大多数输入都是离散而且高维的，特征也分散在少量不同的field上。要解决这样的一个深度学习模型，面临的第一个问题是怎么把输入向量用一个embedding层降维成稠密连续的向量
ctr预估领域方法变化层出不穷，但万变不离其宗，各种模型本质上还是基础组件的组合，如何结合自己的业务、数据、应用场景去挑选合适的模型应用，可能才是真正的难点所在。

参考信息：
1、深度学习在CTR预估中的应用
https://zhuanlan.zhihu.com/p/35484389

2、推荐算法之4——CTR预估模型
https://zhuanlan.zhihu.com/p/76897076

3、推荐算法—ctr预估
https://blog.csdn.net/qq_34219959/article/details/103822973