论文快读——Personalized Showcases Generating Multi-Modal Explanations for Recommendations

论文快读——Personalized Showcases: Generating Multi-Modal Explanations for Recommendations

个性化展示:生成推荐的多模式解释

摘要

现有的解释模型仅生成推荐文本,但仍难以生成多样化的内容。在本文中,为了进一步丰富解释,我们提出了一项名为个性化展示的新任务,其中我们提供文本和视觉信息来解释我们的建议。具体来说,我们首先选择与用户对推荐项目的兴趣最相关的个性化图像集。然后,根据我们选择的图像相应地生成自然语言解释。对于这项新任务,我们从谷歌地图收集了一个大规模数据集,并构建了一个高质量的子集来生成多模态解释。我们提出了一种个性化的多模式框架,可以通过对比学习生成多样化且视觉一致的解释。实验表明,我们的框架受益于不同的输入方式,并且与以前的各种评估指标的方法相比,能够产生更加多样化和更具表现力的解释。

介绍

作者认为个性化解释生成模型有可能提高建议的透明度和可靠性。先前的工作无法提供多样化的解释,输出中存在大量的一般句子(例如,“食物很好!”),缺乏指导生成的基础信息,如图像。为了进一步多样化和丰富对推荐的解释,作者提出了一个名为个性化展示的新任务(如图 1 所示),通过文本和视觉 信息来解释推荐。

在这里插入图片描述

挑战:

  1. 构建具有多模态个性化信息的数据集。    ⟹    \implies 构建了一个来自 Google Local Restaurant 的大规模数据集,即 Gest,包括评论文本和相应的图片。然后,为了提高 Gest 的质量,作者对一个小子集进行注释以查找高度匹配的图像-句子对,并训练基于 CLIP 的分类器以从完整数据集中提取视觉感知的解释。
  2. 生成富有表现力和引人入胜的文本来吸引用户的兴趣。首先,与以往的任务不同,多个图像和生成文本之间的对齐对信息提取和多模态学习提出了更高的要求。其次,具有交叉熵损失的典型编码器-解码器模型很容易导致训练语料库中经常出现的重复且乏味的句子。

解决:

通过对比输入模态与输出序列,提出了个性化跨模态对比学习(PC2L)框架。作者首先设计一个跨模态损失,通过在输出中使用随机替换的实体构建硬负样本来强制图像和输出解释之间的对齐。受到具有相似历史评论的用户具有相似兴趣的观察的启发,进一步设计了个性化损失,根据历史相似性重新加权负样本。

贡献:

  1. 为了生成更丰富的推荐解释,我们提出了一项新任务:个性化展示,可以提供文本和视觉解释。
  2. 对于这项新任务,我们从 Google Local 收集了大规模数据集(即地图),并通过预处理和过滤提取了高质量样本。
  3. 我们提出了一种用于个性化展示的新颖的多模式框架,该框架应用对比学习来提高生成文本的多样性和视觉对齐。

任务定义

为了更好地研究每种模态并为未来的工作提供基线,在本文中,我们将任务分解为两个步骤,如图2所示:

  1. 选择图像集作为与用户兴趣相关的视觉解释;
  2. 根据选定的图像和用户的历史评论生成文本解释。

在这里插入图片描述

方法介绍

3.1 Personalized Image Set Selection

框架的第一步是选择与用户兴趣相关且多样化的图像集作为视觉解释。作者将此选择步骤制定为具有多模式输入的多样化推荐

Multi-Modal Encoder. 作者使用CLIP [16](最先进的预训练跨模态检索模型)作为文本和视觉编码器。

Image Selection Model. 作者使用行列式点过程(DPP)[9]来选择图像子集。与其他单项推荐算法相比,基于 DPP 的模型适用于多图像选择。预测图像集如下:(更多细节看[21])
I ^ u , b = D P P ( I b , u ) (1) \hat I_{u,b}=DPP(I_b,u) \tag 1 I^u,b=DPP(Ib,u)(1)

[16] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020 (2021).

[9] Alex Kulesza and Ben Taskar. 2012. Determinantal Point Processes for Machine Learning. Found. Trends Mach. Learn. 5 (2012), 123–286.

[21] Mark Wilhelm, Ajith Ramanathan, Alexander Bonomo, Sagar Jain, Ed H. Chi, and Jennifer Gillenwater. 2018. Practical Diversified Recommendations on YouTube with Determinantal Point Processes. Proceedings of the 27th ACM International Conference on Information and Knowledge Management (2018).

3.2 Visually-Aware Explanation Generation

获得图像集后,目标是根据一组图像和用户的历史评论生成个性化的解释。作者构建了一个以 GPT-2 作为主干的多模态编码器-解码器模型。

Multi-Modal Encoder.CLIP的文本和视觉编码器分别提取评论特征和视觉特征,并将其投射到一个潜在空间中:
Z i V = W v i V , Z i R = W r i R (2) Z^V_i = W^V_{v_i},Z^R_i = W^R_{r_i}\tag 2 ZiV=WviV,ZiR=WriR(2)
然后使用具有堆叠自注意力层的多模态注意力(MMA)模块,来对输入特征进行编码:
[ H V ; H R ] = M M A ( [ Z V ; Z R ] ) (3) [H^V;H^R]=MMA([Z^V;Z^R]) \tag 3 [HV;HR]=MMA([ZV;ZR])(3)
Multi-Modal Decoder. 对于多模态 GPT-2,给定目标解释 Y = y 1 , y 2 , . . . , y L Y = {y_1, y_2, ..., y_L } Y=y1,y2,...,yL,每个时间步 t t t 的解码过程可以形式化为:
y ^ t = D e c o d e r ( [ H V ; H R ] , y 1 , . . . , y t − 1 ) . (4) \hat y_t = Decoder([H^V;H^R],y_1,...,y_{t-1}).\tag 4 y^t=Decoder([HV;HR],y1,...,yt1).(4)
交叉熵 (CE) 损失来最大化 $N $个训练样本:
L C E = − ∑ i = 1 N l o g p θ ( Y ( i ) ∣ X ( i ) , I ( i ) ) (5) \mathcal L_{CE}=-\sum^N_{i=1}logp_\theta(Y^{(i)}|X^{(i)},I^{(i)})\tag 5 LCE=i=1Nlogpθ(Y(i)X(i),I(i))(5)

3.3 Personalized Cross-Modal Contrastive Learning

本文的任务是使用多个图像作为“视觉提示”来表达个人感受,提出了个性化跨模式对比学习(PC2L)。

首先将图像 H V H^V HV 、历史评论 H R H^R HR 和目标序列 H Y H^Y HY 的嵌入投影到潜在空间中:
H ~ V = ϕ V ( H V ) , H ~ R = ϕ R ( H R ) , H ~ Y = ϕ Y ( H Y ) (6) \tilde{H}^{V}=\phi_{V}\left(H^{V}\right), \tilde{H}^{R}=\phi_{R}\left(H^{R}\right), \tilde{H}^{Y}=\phi_{Y}\left(H^{Y}\right) \tag 6 H~V=ϕV(HV),H~R=ϕR(HR),H~Y=ϕY(HY)(6)
其中 ϕ V 、 ϕ R 和 ϕ Y \phi_{V} 、\phi_{R} 和 \phi_{Y} ϕVϕRϕY 由两个全连接层组成,具有 ReLU 激活和来自最后一个自注意力层的隐藏状态 H V 、 H R 和 H Y H^V 、 H^R 和 H^Y HVHRHY 的平均池化。通过 InfoNCE 损失,最大化源模态和目标序列对之间的相似性,同时最小化负对之间的相似性。

但是这项任务的一个挑战是要求模型描述一组图像中的多个对象。为了确保多个图像特征和输出文本之间的视觉基础,作者设计了一种新颖的跨模态对比损失。(即,“我喜欢寿司”到“我喜欢汉堡”),这样在训练过程中,模型就会接触到关于图像的实体不正确的样本,与原始目标序列区分开来是很重要的。因此,我们添加 Y e n t Y^{ent} Yent 的隐藏表示作为额外的负样本 e n t ent ent 来制定跨模态对比损失:
L C C L = − ∑ i = 1 N log ⁡ exp ⁡ ( s i , i V , Y ) exp ⁡ ( s i , i V , Y ) + ∑ j ∈ K ∪ e n t exp ⁡ ( s i , j V , Y ) (7) \mathcal{L}_{C C L}=-\sum_{i=1}^{N} \log \frac{\exp \left(s_{i, i}^{V, Y}\right)}{\exp \left(s_{i, i}^{V, Y}\right)+\sum_{j \in K \cup e n t} \exp \left(s_{i, j}^{V, Y}\right)}\tag 7 LCCL=i=1Nlogexp(si,iV,Y)+jKentexp(si,jV,Y)exp(si,iV,Y)(7)
另一方面,为了增强解释的个性化,作者根据用户个性重新加权负对。因为具有更鲜明个性的用户更有可能产生不同的解释,受此启发,作者提出加权个性化对比损失:
L P C L = − ∑ i = 1 N log ⁡ exp ⁡ ( s i , i R , Y ) exp ⁡ ( s i , i R , Y ) + f ( i , j ) ∑ j ∈ K exp ⁡ ( s i , j R , Y ) (8) \mathcal{L}_{P C L}=-\sum_{i=1}^{N} \log \frac{\exp \left(s_{i, i}^{R, Y}\right)}{\exp \left(s_{i, i}^{R, Y}\right)+f(i,j)\sum_{j \in K} \exp \left(s_{i, j}^{R, Y}\right)}\tag 8 LPCL=i=1Nlogexp(si,iR,Y)+f(i,j)jKexp(si,jR,Y)exp(si,iR,Y)(8)
其中小批量中的负对根据用户个性相似度函数 f 重新加权。在我们的框架中,用户个性由他们的历史评论来代表。具体来说,我们将 f 函数定义为:
f ( i , j ) = α ( 1 − s i m ( R ~ ( i ) , R ~ ( j ) ) ) (9) f(i,j)=\alpha^(1-sim(\tilde R_{(i)},\tilde R_{(j)})) \tag 9 f(i,j)=α(1sim(R~(i),R~(j)))(9)
总体而言,该模型通过交叉熵损失和两种对比损失的混合进行优化:
L l o s s = L C E + λ 1 L C C L + λ 2 L P C L (10) \mathcal L_{loss} = \mathcal L_{CE}+\lambda_1\mathcal L_{CCL}+\lambda_2\mathcal L_{PCL} \tag {10} Lloss=LCE+λ1LCCL+λ2LPCL(10)

  • 29
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值