DSSM双塔模型原理及在推荐系统中的应用

最新推荐文章于 2025-03-27 21:56:11 发布

贝壳er

最新推荐文章于 2025-03-27 21:56:11 发布

阅读量2.3k

点赞数 5

分类专栏：搜推广文章标签：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wlx19970505/article/details/116809442

版权

搜推广专栏收录该内容

14 篇文章

订阅专栏

本文探讨了DSSM在搜索引擎召回和粗排中的应用，介绍了词哈希技术降低维度的方法，以及如何通过多塔架构和不同loss函数优化模型，涉及点击率和时长预测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1.整体结构：
2. 词哈希
3. DSSM在召回和粗排应用
4. 优化技巧

1.整体结构：

原始的DSSM是在搜索CTR预估任务，大概分为：

embedding层
MLP层
cosine相似度logit
softmax层；其中Q代表搜索词(用户)，D1,2,…,n为检索文档(物料) 。

如果将最左侧看作一个塔，并称为用户塔；那右侧就可以称为物料塔(或者物料塔1,2,…,n);双塔，多塔架构由此得来。
在这里插入图片描述

注意：实际上使用DSSM解决不同的问题，我们通常使用不同的loss函数，双塔模型通过使用不同的label构造不同的模型，比如点击率模型采用用户向量和文章向量内积结果过sigmoid作为预估值，用到的损失函数为logloss，时长模型直接使用用户向量和文章向量的内积作为预估值，损失函数为mse。

2. 词哈希

句子的编码是词编码（one-hot）的累加，由于词表很大，造成句子编码的维度也很大。
使用词哈希降低词编码的维度，这也同时降低了句子编码的维度。如何做词哈希呢？通过n-gram切片，词编码是切片onehot编码的累加，句编码是词编码的累加。
通过DNN进一步降维
最终低维度的句子表示，使用余弦相似度来计算query和doc的相似度。

在这里插入图片描述

3. DSSM在召回和粗排应用

双塔DNN做粗排的离线和在线模型结构如下图所示。
在这里插入图片描述

用户侧和Item侧分别构建多层NN模型，最后输出一个多维embedding，分别作为该用户和Item的低维语义表征，然后通过相似度函数如余弦相似度来计算两者相关性，通过计算与实际label如是否点击、阅读时长等的损失，进行后向传播优化网络参数。Item Embeding会通过持续调用模型Item侧网络进行计算，并保存到HDFS或Faiss中，供线上Serving查询使用。User Embedding在线上Serving时需要通过调用模型用户侧网络进行计算。

4. 优化技巧

双塔模型也可以通过使用不同的label构造不同的模型，比如点击率模型采用用户向量和文章向量内积结果过sigmoid作为预估值，用到的损失函数为logloss，时长模型直接使用用户向量和文章向量的内积作为预估值，损失函数为mse。
双塔模型也可以通过改变用户侧和文章侧的特征构造不同的模型，比如用户侧分别使用短期和长期用户兴趣特征构造短期和长期用户兴趣召回模型，使用基础泛化特征构造对用户冷启动友好的召回模型
可以使用不同的label或者特征构建多塔召回模型，有点类似Multi-View DSSM的感觉了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。