论文快读——Personalized Showcases Generating Multi-Modal Explanations for Recommendations

本文链接：https://blog.csdn.net/weixin_43954673/article/details/136611996

论文快读——Personalized Showcases: Generating Multi-Modal Explanations for Recommendations

个性化展示：生成推荐的多模式解释

摘要

现有的解释模型仅生成推荐文本，但仍难以生成多样化的内容。在本文中，为了进一步丰富解释，我们提出了一项名为个性化展示的新任务，其中我们提供文本和视觉信息来解释我们的建议。具体来说，我们首先选择与用户对推荐项目的兴趣最相关的个性化图像集。然后，根据我们选择的图像相应地生成自然语言解释。对于这项新任务，我们从谷歌地图收集了一个大规模数据集，并构建了一个高质量的子集来生成多模态解释。我们提出了一种个性化的多模式框架，可以通过对比学习生成多样化且视觉一致的解释。实验表明，我们的框架受益于不同的输入方式，并且与以前的各种评估指标的方法相比，能够产生更加多样化和更具表现力的解释。

介绍

作者认为个性化解释生成模型有可能提高建议的透明度和可靠性。先前的工作无法提供多样化的解释，输出中存在大量的一般句子（例如，“食物很好！”），缺乏指导生成的基础信息，如图像。为了进一步多样化和丰富对推荐的解释，作者提出了一个名为个性化展示的新任务（如图 1 所示），通过文本和视觉 信息来解释推荐。

在这里插入图片描述

挑战：

构建具有多模态个性化信息的数据集。 $\implies$ 构建了一个来自 Google Local Restaurant 的大规模数据集，即 Gest，包括评论文本和相应的图片。然后，为了提高 Gest 的质量，作者对一个小子集进行注释以查找高度匹配的图像-句子对，并训练基于 CLIP 的分类器以从完整数据集中提取视觉感知的解释。
生成富有表现力和引人入胜的文本来吸引用户的兴趣。首先，与以往的任务不同，多个图像和生成文本之间的对齐对信息提取和多模态学习提出了更高的要求。其次，具有交叉熵损失的典型编码器-解码器模型很容易导致训练语料库中经常出现的重复且乏味的句子。

解决：

通过对比输入模态与输出序列，提出了个性化跨模态对比学习（PC2L）框架。作者首先设计一个跨模态损失，通过在输出中使用随机替换的实体构建硬负样本来强制图像和输出解释之间的对齐。受到具有相似历史评论的用户具有相似兴趣的观察的启发，进一步设计了个性化损失，根据历史相似性重新加权负样本。

贡献：

为了生成更丰富的推荐解释，我们提出了一项新任务：个性化展示，可以提供文本和视觉解释。
对于这项新任务，我们从 Google Local 收集了大规模数据集（即地图），并通过预处理和过滤提取了高质量样本。
我们提出了一种用于个性化展示的新颖的多模式框架，该框架应用对比学习来提高生成文本的多样性和视觉对齐。

任务定义

为了更好地研究每种模态并为未来的工作提供基线，在本文中，我们将任务分解为两个步骤，如图2所示：

选择图像集作为与用户兴趣相关的视觉解释；
根据选定的图像和用户的历史评论生成文本解释。

在这里插入图片描述

方法介绍

3.1 Personalized Image Set Selection

框架的第一步是选择与用户兴趣相关且多样化的图像集作为视觉解释。作者将此选择步骤制定为具有多模式输入的多样化推荐。

Multi-Modal Encoder. 作者使用CLIP [16]（最先进的预训练跨模态检索模型）作为文本和视觉编码器。

Image Selection Model. 作者使用行列式点过程(DPP)[9]来选择图像子集。与其他单项推荐算法相比，基于 DPP 的模型适用于多图像选择。预测图像集如下：（更多细节看[21]）
$\hat I_{u,b}=DPP(I_b,u) \tag 1$

[16] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020 (2021).

[9] Alex Kulesza and Ben Taskar. 2012. Determinantal Point Processes for Machine Learning. Found. Trends Mach. Learn. 5 (2012), 123–286.

[21] Mark Wilhelm, Ajith Ramanathan, Alexander Bonomo, Sagar Jain, Ed H. Chi, and Jennifer Gillenwater. 2018. Practical Diversified Recommendations on YouTube with Determinantal Point Processes. Proceedings of the 27th ACM International Conference on Information and Knowledge Management (2018).

3.2 Visually-Aware Explanation Generation

获得图像集后，目标是根据一组图像和用户的历史评论生成个性化的解释。作者构建了一个以 GPT-2 作为主干的多模态编码器-解码器模型。

Multi-Modal Encoder. 用CLIP的文本和视觉编码器分别提取评论特征和视觉特征，并将其投射到一个潜在空间中：
$Z^V_i = W^V_{v_i},Z^R_i = W^R_{r_i}\tag 2$
然后使用具有堆叠自注意力层的多模态注意力（MMA）模块，来对输入特征进行编码：
$[H^V;H^R]=MMA([Z^V;Z^R]) \tag 3$