【GCN多模态RS】《Pre-training Representations of Multi-modal Multi-query E-commerce Search》 KDD 2022

本文介绍了KDD 2022会议上的一项研究,探讨了如何构建多模态多查询(MM)电子商务搜索的表征。研究中,作者构建了异质图,应用注意力机制的全局视图(AGV)和层次化的局部视图(HLV)来理解多模态查询会话。通过对比学习预训练,他们得到了MM session的表示,用于下游任务如Query推荐和Query意图分类。实验数据显示,这种方法能有效提升会话表征的质量,对理解和推荐用户在复杂搜索会话中的意图有显著帮助。
摘要由CSDN通过智能技术生成

《Pre-training Representations of Multi-modal Multi-query E-commerce Search》 KDD 2022

在这里插入图片描述

考虑的场景是多模态query session,即一个session是文本和图像的query,目的是建模这个session的表征,从而实现CTR或者Query推荐。

如上图,淘宝中除了文本搜索、拍照搜索之外,还可以在文本搜索结果中长按商品进行相似商品搜索。其中,文本搜索以输入的关键词作为Key Query,拍照搜索以实拍图作为Image Query,相似商品搜索以商品信息作为Product Query(包括商品标题、描述等)。在用户的浏览购物过程中,会交替使用这些不同模态的搜索形式。因此,上述搜索行为就构成了一个多模态多Query的搜索会话 (MM search session)。其中Key Query和Image Query包含一系列words,Image Query包含一张图片。

在这里插入图片描述

session的划分规则是同一个用户前后2次搜索间隔不超过30分钟作为窗口来构建搜索session,文章先展示了MM session普遍更长,甚至9%包含10个query以上,另一方面MM session的点击次数明显少于纯文本session,说明MM session的意图还是很复杂的,MM session的表征学习还是很重要的。

这篇文章提出将session建模为图,然后利用对比学习预训练,最终得到MM session的表征,用于各种下游任务。

异质图

在这里插入图片描述

对于文本query,每个word是一个节点,对于图像query,图像是一个节点。每个节点都有一个embedding,文本就是用word2vec得到的向量,图片预训练模型得到的feature。注意即使是同一word,product query的word和key word query的word也不是同一节点,因为“属于不同type”。

因为要用对比学习预训练,所以需要生成两种视图,并得到两种视图的embedding:

基于注意力机制的全局视图(AGV)

在AGV视图中,一共有三种不同的节点类型 Q = { K Q , P Q , I Q } Q=\{K Q, P Q, I Q\} Q={ KQ,PQ,IQ} ,分别表示文本搜索的关键词Query、相似商品搜索中的标题Query和图片Query,一共有两种不同类型的边, E = { C O , R F } E=\{C O, R F\} E={ CO,RF} 分别表示co-occur 和refine 关系,CO指的是两个节点属于同一个Query,RF关系表示两个节点分别属于两个相邻的Query。节点已经有初始化向量了,但是由于视觉模态和文本模态属于不同的表征空间,因此在初始化时,需要先将 image 的表征映射到文本的空间中:
v i = σ ( W e v ~ i + b ) \mathbf{v}_{i}=\sigma\left(\mathbf{W}^{e} \tilde{\mathbf{v}}_{i}+\mathbf{b}\right) vi=σ(Wev~i+b)
其中 v ~ i \tilde{\mathbf{v}}_{i} v~i 是图片 i 的初始embedding。现在在同一个文本空间了,然后对不同模态分别做Attention聚合,得到每一种模态下的表示,具体的,节点 i 在模态 p 下的隐向量计算公式为:
v i p = σ ( ∑ j ∈ N i , ϕ ( j ) = p α i , j p v j ) \mathbf{v}_{i}^{p}=\sigma\left(\sum_{j \in \mathcal{N}_{i}, \phi(j)=p} \alpha_{i, j}^{p} \mathbf{v}_{j}\right) vip=σ jNi,ϕ(j)=pαi,jpvj
其中 p ∈ { K Q , P Q , I Q } p \in\{K Q, P Q, I Q\} p{ KQ,PQ,IQ},这里p实际上是节点类型, ϕ ( j ) = p \phi(j)=p ϕ(j)=p该类节点,是 N i \mathcal{N}_{i} Ni是邻居节点集合, α i , j p \alpha_{i, j}^{p} αi,jp是特定类型的注意力,计算方法为:
α i , j p = exp ⁡ ( σ ( W

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值