【GCN多模态RS】《Pre-training Representations of Multi-modal Multi-query E-commerce Search》 KDD 2022

最新推荐文章于 2023-05-06 17:02:51 发布

chad_lee

最新推荐文章于 2023-05-06 17:02:51 发布

阅读量469

点赞数

分类专栏：论文解读推荐系统多模态文章标签： python 深度学习机器学习

本文链接：https://blog.csdn.net/yanguang1470/article/details/125903194

版权

本文介绍了KDD 2022会议上的一项研究，探讨了如何构建多模态多查询（MM）电子商务搜索的表征。研究中，作者构建了异质图，应用注意力机制的全局视图（AGV）和层次化的局部视图（HLV）来理解多模态查询会话。通过对比学习预训练，他们得到了MM session的表示，用于下游任务如Query推荐和Query意图分类。实验数据显示，这种方法能有效提升会话表征的质量，对理解和推荐用户在复杂搜索会话中的意图有显著帮助。

摘要由CSDN通过智能技术生成

《Pre-training Representations of Multi-modal Multi-query E-commerce Search》 KDD 2022

在这里插入图片描述

考虑的场景是多模态query session，即一个session是文本和图像的query，目的是建模这个session的表征，从而实现CTR或者Query推荐。

如上图，淘宝中除了文本搜索、拍照搜索之外，还可以在文本搜索结果中长按商品进行相似商品搜索。其中，文本搜索以输入的关键词作为Key Query，拍照搜索以实拍图作为Image Query，相似商品搜索以商品信息作为Product Query（包括商品标题、描述等）。在用户的浏览购物过程中，会交替使用这些不同模态的搜索形式。因此，上述搜索行为就构成了一个多模态多Query的搜索会话 (MM search session)。其中Key Query和Image Query包含一系列words，Image Query包含一张图片。

在这里插入图片描述

session的划分规则是同一个用户前后2次搜索间隔不超过30分钟作为窗口来构建搜索session，文章先展示了MM session普遍更长，甚至9%包含10个query以上，另一方面MM session的点击次数明显少于纯文本session，说明MM session的意图还是很复杂的，MM session的表征学习还是很重要的。

这篇文章提出将session建模为图，然后利用对比学习预训练，最终得到MM session的表征，用于各种下游任务。

异质图

在这里插入图片描述

对于文本query，每个word是一个节点，对于图像query，图像是一个节点。每个节点都有一个embedding，文本就是用word2vec得到的向量，图片预训练模型得到的feature。注意即使是同一word，product query的word和key word query的word也不是同一节点，因为“属于不同type”。

因为要用对比学习预训练，所以需要生成两种视图，并得到两种视图的embedding：

基于注意力机制的全局视图（AGV）

在AGV视图中，一共有三种不同的节点类型 $Q=\{K Q, P Q, I Q\}$ ，分别表示文本搜索的关键词Query、相似商品搜索中的标题Query和图片Query，一共有两种不同类型的边， $E=\{C O, R F\}$ 分别表示co-occur 和refine 关系，CO指的是两个节点属于同一个Query，RF关系表示两个节点分别属于两个相邻的Query。节点已经有初始化向量了，但是由于视觉模态和文本模态属于不同的表征空间，因此在初始化时，需要先将 image 的表征映射到文本的空间中：
$\mathbf{v}_{i}=\sigma\left(\mathbf{W}^{e} \tilde{\mathbf{v}}_{i}+\mathbf{b}\right)$
其中 $\tilde{\mathbf{v}}_{i}$ 是图片 i 的初始embedding。现在在同一个文本空间了，然后对不同模态分别做Attention聚合，得到每一种模态下的表示，具体的，节点 i 在模态 p 下的隐向量计算公式为：
$\mathbf{v}_{i}^{p}=\sigma\left(\sum_{j \in \mathcal{N}_{i}, \phi(j)=p} \alpha_{i, j}^{p} \mathbf{v}_{j}\right)$
其中 $\in\{K Q, P Q, I Q\}$ ，这里p实际上是节点类型， $\phi(j)=p$ 该类节点，是 $\mathcal{N}_{i}$ 是邻居节点集合， $\alpha_{i, j}^{p}$ 是特定类型的注意力，计算方法为：

最低0.47元/天解锁文章

chad_lee

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【GCN多模态RS】《Pre-training Representations of Multi-modal Multi-query E-commerce Search》 KDD 2022

session的划分规则是同一个用户前后2次搜索间隔不超过30分钟作为窗口来构建搜索session，文章先展示了MMsession普遍更长，甚至9%包含10个query以上，另一方面MMsession的点击次数明显少于纯文本session，说明MMsession的意图还是很复杂的，MMsession的表征学习还是很重要的。考虑的场景是多模态querysession，即一个session是文本和图像的query，目的是建模这个session的表征，从而实现CTR或者Query推荐。...
复制链接

扫一扫

专栏目录