![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CTR
文章平均质量分 88
chad_lee
看论文的
展开
-
【推荐系统中的Hash 3】Deep Hash:Learning to Embed Categorical Features without Embedding Tables KDD‘21
作者也觉得他这种方法不能满足同质性Equal Similarity,因此提出对于物品ID、用户ID,在encode之后再拼接上属性(年龄、性别、品牌等),然后在输入到DHE中解码,为最终生成的embedding补充同质性。项为1,其他都为0。,即一个特征分别落到了k个桶中,分别从embedding table取出向量,并且把最后的结果concat到一起或者做avg-pooling。作者说,这里是受到GAN网络的启发,用服从高斯分布的随机变量做GAN网络的输入。2、无法处理新出现的特征(OOV)。原创 2022-08-21 23:27:14 · 1243 阅读 · 0 评论 -
【超长序列建模】美团CIKM‘22:《Sampling Is All You Need on Modeling Long-Term User Behaviors for CTR Prediction》
如果直接只用一个哈希函数的话,那么这样计算得到的用户兴趣表征误差肯定是非常大的。为了减小误差,作者采用了 simHash 的一个变种:(m,τ) - parameterized simHash,也就是同时采样 m 个哈希函数生成 m 个 binary 的哈希指纹,然后将每 τ 个哈希指纹串在一起视为一个新的 τ 位的哈希签名,而后用这个 τ 位的哈希签名去计算 item 间的碰撞。直接用 item 间的哈希碰撞概率来近似他们的相似度,从而避免 element-wise 的相似度计算**。...原创 2022-08-14 14:33:55 · 1228 阅读 · 3 评论 -
【超长序列建模】阿里ETA:《End-to-End User Behavior Retrieval in Click-Through Rate Prediction Model》
最自然想到的方法就是target attention,让target item与每个historical item逐一点积,这兜兜转转由回到了起点,我们就是从attention出发来的。现在找到了一个功能和target attention类似,但是复杂度低的多的方法了。一种解决方法是SimHash。SimHash的优点在于其。,SimHash后得到。...原创 2022-08-14 14:31:43 · 1261 阅读 · 0 评论 -
【冷启动】Transform Cold-Start Users into Warm via Fused Behaviors in Large-Scale Recommendation SIGIR‘22
主要有三点:(1)将冷启动用户的嵌入预热,其实就是加了一个冷启动用户embedding,(2)为了利用冷启动用户的少量行为来帮助表征用户,提出了通过Label Encoding(LE)同时建模正负反馈混合序列,类似于卷积层里有负样本。冷启动用户的user embedding刚开始是随机初始化的,为了消除初始随机初始化embedding的的影响,类似MAML的思想,用全局平均embedding来辅助。类似于图卷积中加负样本,在用户的序列行为中也考虑负反馈物品,即对用户曝光但未点击的item。...原创 2022-08-10 23:20:35 · 618 阅读 · 0 评论 -
【超长序列建模】万级别:SIM《Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click
这个时候干脆模仿起推荐系统的召回、精排方法,对序列特征再做一次“召回”和“精排”:第一阶段Genral Search Unit(GSU)通过相对粗略的搜索模式,提取行为序列中与候选 AD 较相关的节点,第二阶段Exact Search Unit(ESU)通过精准搜索的模式,得到序列与候选 AD 的关系,并形成 embedding 供 MLP 使用。因为引入的是超长的用户行为序列,用户行为间横跨较长的时间,用户行为的分布是不同的,所以给每个用户行为引入了一个时间状态属性。来表达每个行为的时间状态属性。...原创 2022-08-10 23:18:35 · 623 阅读 · 0 评论 -
【超长序列建模】千级别:MINM《Practice on Long Sequential User Behavior Modeling for Click-Through Rate Predictio
当序列行为超长时,意味着一个节点有数十万条边,这个时候一阶关系都过于稠密,更不用说利用高阶关系了。原创 2022-08-10 23:16:27 · 585 阅读 · 0 评论 -
【CTR】《Towards Universal Sequence Representation Learning for Recommender Systems》 (KDD‘22)
现有方法依赖于显式的商品ID建模,存在迁移性差和冷启动的问题(即使各个推荐场景的数据格式是完全相同的)。序列推荐是根据用户点击过的item序列,学习出一个序列表征,然后根据表征预测下一个item,建模表征的模型有RNN、CNN、GNN、Transformer、MLP等。微调时把所有Transformerencoderfix(PLM的本来就是fixed的),只微调MoE那一块的参数,即利用MoE让预训练模型快速和新领域适配、融合。核心思想是利用与商品相关的文本(如商品描述、标题、品牌等)来学习可。...原创 2022-07-20 23:41:05 · 963 阅读 · 0 评论 -
【CTR模型系列汇总】十五篇博文、十九个模型梳理CTR预估模型(20220802更新)
一、【机器学习基础04】矩阵分解(Matrix Factorization)二、【特征交叉-CTR】FM-based Recommendation Model:FM、FFM三、【特征交叉-CTR】特征交叉:Wide & Deep、Deep & Cross Network四、【特征交叉-CTR】真伪DeepFM:DeepFM、xDeepFM五、【挖掘兴趣-CTR】YouTubeNet、DIN六、【挖掘兴趣-CTR】Deep Interest Evolution Network for原创 2022-03-21 22:16:12 · 3345 阅读 · 0 评论 -
【机器学习基础04】矩阵分解(Matrix Factorization)
完成了机器学习基础的学习,笔者还分享了基于矩阵分解的CTR模型供参考矩阵分解进阶:FM、FFM矩阵分解与深度学习:DeepFM、xDeepFM矩阵分解与特征交叉:Wide & Deep、Deep & Cross Network矩阵分解(Matrix Factorization)对于数据集 D\mathcal DD ,该假设函数的基于平方误差的误差测量为:Ein ({wm},{vn})=1∑m=1M∣Dm∣∑user n rated mov原创 2022-01-21 15:23:31 · 439 阅读 · 0 评论 -
【CTR】Deep Session Interest Network for Click-Through Rate Prediction (IJCAI‘19)
DSIN (IJCAI’19)还是阿里的工作,上文说到了用户的行为序列可能会超长,这里借用Airbnb KDD’18文章的做法,将超长的sequence以间隔超过30分钟为标准,分成了若干个session。这里借机讨论一下Sequential RS (SRS) 和Session-based RS (SBRS)的区别SRS和SBRSsession是根据一定时间规则对sequence进行划分的结果,一个sequence由k个session构成。如上图,以30分钟为间隔,将用户行为序列切割成各个sess原创 2021-11-19 10:02:54 · 207 阅读 · 0 评论 -
【CTR】Deep Interest Evolution Network for Click-Through Rate Prediction (AAAI‘19)
DIEN (AAAI’19)这篇还是阿里的工作,进一步改进DIN,不仅要建模出用户行为的多兴趣,还要建模出时序关系。用两层GRU来建模多兴趣时序关系,引入了细粒度的辅助loss,在2018年算是工业界落地最复杂的模型了:两层GRU分别是Interest Extractor Layer和Interest Evolving Layer。再介绍之前我们先回顾一下GRU是怎么更新的:ut=σ(Wuit+Uuht−1+bu)rt=σ(Writ+Urht−1+br)h~t=tanh(Whit+rt∘Uhht−原创 2021-11-19 10:01:32 · 171 阅读 · 0 评论 -
【CTR】YouTubeNet、DIN
YouTubeNet (RecSys’16)谷歌提出的深度学习用于工业界推荐系统的框架,奠定了之后工业界推荐系统架构,分为粗排和精排两阶段。召回阶段,模型的输入为:用户历史观看视频的embedding的平均、用户搜索过关键词的embedding的平均还有一些其他特征,经过神经网络提取特征后,训练时就sofamax多分类(类为所有候选视频)(线上就为了效率直接匹配)经过后召回了几百个item,排序阶段模型输入是一个候选item的embedding和用户历史观看视频的embedding的平均,还有一些原创 2021-11-19 10:00:15 · 1781 阅读 · 0 评论 -
【FM-RS】真伪DeepFM:DeepFM、xDeepFM
DeepFM IJCAI’17理解一:这篇文章在模型的设计上紧随Google的Wide & Deep,用FM来代替Wide & Deep的部分,从而可以避免人工设计特征工程。理解二:分别利用线性模型、FM、DNN得到一阶特征、二阶特征、高阶特征。模型我们假设训练集当中一共有nnn条样本,每一条样本可以写成(χ,y)(\chi, y)(χ,y)。其中的是一个mmm个field组成的向量,包含了用户和item等组成的特征。y∈{0,1}y \in\{0,1\}y∈{0,1},y=0y=0原创 2021-11-18 20:35:41 · 287 阅读 · 0 评论 -
【FM-RS】FM-based Recommendation Model:FM、FFM
FM(Factorization Machines) ICDM’10动机一:矩阵分解是一个很好的方法,但是我们似乎只能利用用户物品评分这一个信息,用户和物品辅助特征都不能利用起来。FM就就可以解决这个问题,把所有特征都用一个向量表示(latent factor)。不由得让人想起“万物皆可embedding”。动机二:稀疏场景下,叉乘特征导致参数量爆炸,并且无法学习。这个是原论文里的动机。真实场景例子论文举了一个电影评分的例子,先来观察一下7个样本的矩阵:很明显上图的左边一大块是特征,右边的Tar原创 2021-11-18 20:22:48 · 468 阅读 · 0 评论 -
【FM-RS】特征交叉:Wide & Deep、Deep & Cross Network
Wide & Deep Google’16Google 16年发布的论文,并应用在Google Play上,影响力较大,其他厂商也仿照了。首先理解Wide和Deep的含义是什么Wide部分(Memorization)Wide部分其实就是一个线性模型y=wT[x,ϕ(x)]+by=\boldsymbol{w}^{T}[\boldsymbol{x}, \phi(\boldsymbol{x})]+by=wT[x,ϕ(x)]+b其中x,ϕ(x)\boldsymbol{x}, \phi(\b原创 2021-11-18 20:33:09 · 786 阅读 · 0 评论