【论文阅读翻译】KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems

【论文阅读翻译】KB4Rec: A Dataset for Linking Knowledge Bases with Recommender Systems

Abstruct

  • 开发一个具有知识感知的推荐系统,关键的数据问题是怎样为推荐系统的item获得丰富且结构化的知识信息。
  • 现有的数据集或方法要么使用来自最初推荐系统的辅助信息(包含非常少的有用信息),要么使用私有的知识库(KB)
  • 本论文中,我们为推荐系统提出了第一个关联知识库的数据集,叫做KB4Rec v1.0,它已经将三个广泛使用的RS数据集与受欢迎的KB Free base关联起来。
  • 基于以上的关联数据集,我们进行了一些有趣的定性分析实验,在实验中我们在两个重要的因素(受欢迎度和recency)上考虑是否一个推荐item被关联至一个KB实体。
  • 最后,我们在我们的链接数据集上比较了几种知识感知推荐算法

Introduction

  • 随着Web技术的飞速发展,多种多样的边缘信息(side information)在推荐系统中变得有用。在早期阶段,这些上下文信息是非结构化的,并且被限制在指定的数据域或平台。最近,研究界和工业界都在为各种数据领域构建world knowledgedomain facts做出越来越多的努力。

  • 一个最典型的组织形式是knowledge base(KB)

    • KB提供了一个一般的和统一的方法组织和关联信息实体,目前已经在很多应用展示出有用性。
    • 特别地,KBs已经被用于RS,通常叫做knowledge-aware recommendation
  • 开发一个知识感知推荐系统,一个关键的数据问题是怎样为RS item获得丰富的和结构化的知识信息

  • 总的来说,对于现存的研究有两个主要的解决方法。

    • 第一种,从 RS 平台收集side information,一些研究进一步构建了微小而简单的 KB 式知识结构。对于这种方法,属性和关系的数量通常是有限的,许多有用的关系信息没被考虑到。
    • 第二种,一些工作提议把RS和私有KBs链接起来。链接结果不是公开有效的
  • 为了解决关联RS和KBs数据集的需求,我们为推荐系统提出了一个公开的关联KB数据集,命名为KB4Rec v1.0公开数据集链接

  • 我们的基本idea是启发式的关联来自RSs的item和来自public large-scale KB的实体

    • 在RS这边,我们选择了三个广泛知用的数据集,涵盖了3个不同的数据域,分别命名为movie,music,book

      • MovieLens
      • LFM-1b
      • Amazon book
    • 在KB这边,我们选择了著名的Freebase。我们通过选择非常流行的 RS 数据集和知识库(KB)来最大化我们链接数据集的适用性。

    • 特别地,也又一些研究与此相关,然而我们聚焦于被广泛应用于许多NLP或者相关的领域的Freebase

  • 在我们的KB3Rec v1.0数据集中,我们通过关联的ID对来组织链接结果,由一个RS item的ID 和一个KB实体的ID组成。我们没有分享最初的数据集,因为他们被最初的研究者或出版者维护。所有的ID是来自原始数据的内部ID。一旦这个链接被完成,可以重新使用现存的large-scale KB为RS服务。

    • 例如,来自MovieLens数据集的电影“Avatar”在Freebase中有一个对应的实体项,我们可以通过在 Freebase 中读取其所有关联的关系三元组来获取其属性信息

Existing Datasets And Methods

在这节,我们简要的回顾一下相关的数据集和方法

  • 最早的knowledge-aware recommendation algorithms(知识感知算法)也被叫做context-aware recomendation algorithms(上下文感知推荐算法),其中来自RS平台的side information被视为上下文数据。

    • 例如:[11, 12]中利用了Epinions数据集的社交网络信息,[4]中利用了Yelp数据集的POI属性信息,[20]利用了MovieLens数据集的电影属性信息,[22]利用了microblogging数据集的用户简介信息。

    这些数据集通常包含了种类非常少的side information,并且不同side information之间的关系被忽略。

  • 为了使这些辅助信息更加结构化,异构信息网络 (HIN) 已被提出作为信息网络建模的通用技术 。在HIN中,我们可以有效的学习到底层的关系模式(meta-path)和通过基于meta-path的表达来组织side information。

    • 例如:基于 HIN 的算法通常依赖于图搜索算法,难以处理大规模的关系模式查找。
  • 最近,KBs已经变成一种受欢迎的数据源,来存储和组织world knowledge 或者 domain facts。已经提出了许多关于知识库的构建、推理和应用的研究 [19]。特别地,一些开创性研究试图利用现有的知识库信息来提高推荐性能 [17 , 18 , 21 ]。他们应用启发式的方法把RS item和KB 实体链接起来。在这些研究中,他们使用私有的KB来连接,这是不能被公共获得的。

Linked Dataset Construction

  • 在我们的工作中,我们需要准备两种数据集,命名为RS和KB 数据。接下来,我们首先为最初的数据集给出一个详细的描述,然后讨论链接方法。

  • RS Datasets:我们考虑了三个受欢迎的RS数据集,MovieLens,LFM-1b,Amazon books。

    • MovieLens数据集描述用户对电影的偏好
      • 偏好记录采取<user,item,rating,timestamp>格式,指出针对某个用户对于某个item在某个时间的评分。选用最大规模20M的数据集
    • LFM-1b数据集描述了用户对音乐的交互记录
      • 提供了包括 artists,albums,tracks,users信息以及个人收听事件。记录了用户在某首歌的聆听记录,但是不包括评分信息
    • Amazon book数据集描是了用户对于书本的偏好
      • 格式为<user,item,rating,timestamp>。该数据集是非常稀疏的,包含来自 800 万用户的 2200 万个评分,涉及近 2300 万个项目。

    在这三个数据集中,我们有几种辅助信息,例如item标题,IMDB ID,作者和作曲家。我们利用这些辅助信息用于后续的KB链接

  • KB Dataset:采用一个大规模的公开KB,Freebase。Freebase [ 5 ] 是 Metaweb Technologies, Inc. 于 2007 年宣布的 KG(知识图谱),并于 2010 年 7 月 16 日被 Google Inc. 收购

    • Freebase通过三元组<head,relation,tail>形式存储facts。我们选择 Freebase 是因为它已被广泛应用于研究社区
  • RS to KB Linkage

    • 使用离线的Freebase搜索API,通过item标题查询KB实体。
    • 如果没有相同标题的KB实体被返回,我们认为RS item在链接过程被拒绝。
    • 如果至少一个具有相同标题的KB实体被返回,我们进一步将一种辅助信息作为精确链接的细化约束。
    • 我们发现仅仅很少数量的RS item不能被精确的链接或者被拒绝,简单的丢弃他们。

    在这个链接的过程总,我们解决了几个影响字符串匹配算法的问题:lowercase(小写),abbreviation(缩写),the order of family/given names(姓氏/名字的顺序)。并且,由于LFM-1b数据集极度的大,我们丢弃了少于10条记录的音乐

  • Basic Statistics

    • 在这里插入图片描述

    • MovieLens 20M dataset有95.2%的关联率,LFM-1b有19.4%,Amazon book 4.7%。

    • 可能的解释是MovieLens 20M数据集相比于其他两个包含更少的item,已经被最初的发行者进行了细化。而且,我们推测在 Freebase 的构建中可能存在领域偏差。虽然后两个数据集的链接率不高,但链接项目的绝对数量很大。 这样的链接数据集对于研究目的的研究是可行的。

  • Shared Datasets

    • 在我们的KB4Rec v1.0数据集中,我们通过ID对来组织链接结果,<RS item ID,KB entity ID>。所有ID都是来自原始数据的内部值。

Linkage Analysis

之前,我们已经展示了关联率,但是发现相当数量的RS item不能被KB实体关联。我们考虑了两种影响因素进行分析。

  • Effect of Popularity on Linkage:直觉地,一个受欢迎的RS item更可能被包括在KB中,因为RS 用户判断的更重要的RS item被合并至KBs是更合理的。KB本身的构造通过受人工的影响,很难避免人类注意力的偏置。为了评估RS item的受欢迎性,我们采用了一个简单的frequency-based method,通过计数用户与item交互的数量来统计。该度量表征了来自用户的项目在 RS 中的吸引力。

    • 首先,我们升序地通过items在RS的受欢迎值进行排序。
    • 然后,我们进一步将所有items均分到5个有序的bin中。因此,具有较大 bin 编号的 item 将比具有较小 bin 编号的另一个更受欢迎。
    • 然后,我们为每一个bin计算关联率。可以从图中看出大编号的bin有更高的关联率
    • 这指出popularity对于关联率有正向的影响
  • Effect of Recency on Linkage:第二个考虑的是RS item被创建的时间。我们的假设是如果一个RS item被创建或者被发行在一个更早的时间,更可能被包含在KBs。因为人类的注意力是一个逐渐增加的过程,一个RS item通常需要可观的时间来变得受欢迎。

    • 通过item的发行日期升序排序
    • 等分为10个有序的bins
    • 为每个bins计算连接率

    可以看到随着时间增加,连接率逐渐下降。Recency对于对于链接有着消极的影响,旧的item似乎更可能被包括在KB中。特别地,最后一个bin有一个剧烈的下降,可能的原因是MovieLens数据集版本问题。

在这里插入图片描述

Experiment

我们在我们的链接数据集上进行了一些现存推荐算法的比较

  • Experimental Setup:因为我们的关联数据集非常大,我们首先通过以下步骤生成了一个小的测试集。

    • 依据[7],我们考虑最后一个推荐item任务作为评估:给定一个用户,首先通过时间进行排序,然后把最后一个item放入测试集,其他的放入训练集。最后的目标是根据用户先前的顺序预测最后一个item。
  • KB Inofrmation Representation:我们的目的是为推荐系统提供丰富的知识信息。一个简单的KB信息表示是one-hot vector。这里我们采用[2,21]的idea,把KB data嵌入至低维度的vectors。然后这个被学习的embeddings被用于之后的推荐算法。为了训练[2]中的TransE,我们从链接实体作为种子开始,并通过one-step搜索扩展图。不是KBs中的所有关系都是有用的,我们移除少于5000三元组的关系。

    • 在此操作之后,每个链接item与学习过的KB嵌入向量关联在一起
  • Methods to Compare:我们考虑以下方法进行性能比较

    • BPR: It learns a matrix factorization model by minimizing the pairwise ranking loss in a Bayesian framework
    • SVDFeature:It is a model for feature-based collaborative filtering. In this paper we use the KB embeddings as context features to feed into SVDFeature.
    • mCKE:It first proposes to incorporate KB and other information to improve the recommendation performance. For fairness, we implement a simplified version of CKE by only using KB information, and exclude image and text information. Different from the original CKE, we fix KB representations and adopt the learned embeddings by TransE
    • KSR: It is a Knowledge-enhanced Sequential Recommender (KSR). It incorporates KB information to enhance the semantic representation memory networks.
  • Results and Analysis

    • 在所有方法中,BPR在三个数据集表现最差,其他结合了KB信息的方法表现更好
    • SVDFeature使用成对排列的损失函数实现,可以粗糙的理解为BPR模型结合了学习过的KB embedding的增强。SVDFeature与BPR相比,在更稀疏的Amazon book数据集表现稍微好一点,其他数据集明显更好。
    • 在知识感知推荐方法,mCKE和KSR。总体来说,mCKE没有期望中表现好。可能的原因是我们与原论文中动态更新KB embedding不同,固定了学习到的KB embeddings。KSR在三个数据集都表现很好,KSR结合了RNN和MN的性能。
      在这里插入图片描述
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值