推荐系统实践 - 04利用用户标签数据

–未经授权,禁止转载–第四章 利用用户标签数据1 利用用户标签综述2 标签系统中的推荐问题1 利用用户标签综述目前的推荐系统基本上通过三种方式联系用户兴趣与物品:对于第三种推荐方法,特征有不同的表现形式,如隐语义向量,标签等。本章主要讨论标签这种特征表现形式。根据打标签的人不同,可以将标签分为两种:一种是让作者或专家给物品打标签;一种是让用户给物品打标签,即用户生成的内容(User Generated Content, UGC)的应用。当一个用户对物品打上标签,这个标签一方面描述了用户的兴趣,另一方
摘要由CSDN通过智能技术生成

–未经授权,禁止转载–

1 利用用户标签综述

目前的推荐系统基本上通过三种方式联系用户兴趣与物品:推荐算法三种方式对于第三种推荐方法,特征有不同的表现形式,如隐语义向量,标签等。本章主要讨论标签这种特征表现形式。

根据打标签的人不同,可以将标签分为两种:一种是让作者或专家给物品打标签;一种是让用户给物品打标签,即用户生成的内容(User Generated Content, UGC)的应用。当一个用户对物品打上标签,这个标签一方面描述了用户的兴趣,另一方面表示了物品的语义,从而将物品和用户联系起来。

标签系统在各种各样的网站中都得到了广泛应用。它最大的优势在于能够发挥群体智能,获得对物品内容信息比较准确的关键词描述。UGG标签系统的代表应用如下:

  • Delicious。Delicious允许用户给互联网上的每个网页打标签,从而通过标签重组整个互联网。比如对豆瓣电台的标签为:music、radio、douban、豆瓣、音乐、web2.0……
  • CiteULike。CiteULike是一个论文书签网站,允许研究人员收藏感兴趣的论文并给论文打标签。通过群体智能,让每个研究人员对自己了解的论文进行标记,借此帮助其他人员更好地发现自己感兴趣的论文。
  • ……

2 标签系统中的推荐问题

标签系统中的推荐问题包括:如何利用用户打标签的行为推荐物品(基于标签的推荐),如何在用户给物品打标签时推荐适合该物品的标签(标签推荐)为研究上述问题,需要了解:用户为什么打标签,用户如何打标签,用户打什么样的标签

  • 用户为什么打标签

    • 社会维度:便于上传者组织自己的信息;便于帮助其他用户找到信息
    • 功能维度:用于更好地组织内容,方便用户查找;用于传达信息,如拍照时间和地点
  • 用户如何打标签
    标签的流行度分布呈长尾分布,如下图所示,横轴表示标签的流行度k,即一个标签被用户的使用次数。纵轴表示流行度为k的标签总数。
    标签流行度分布

  • 用户打什么样的标签
    可以通过以下几点设计标签:

    • 表明物品是什么。如鸟,豆瓣乔布斯
    • 表明物品的种类。如文章,博客,图书
    • 表明物品拥有者。如作者信息
    • 表明用户观点。如有趣,无聊
    • 用户相关标签。如我喜欢的,我的评论
    • 用户相关任务。如即将阅读,找工作

    Hulu对电视剧的标签示例:

    • 类型。如医学剧情片
    • 时间。包括电视剧发布时间,或电视剧中剧情发生时间
    • 人物。包括电视剧导演、演员及剧中的重要人物
    • 地点。包括剧情发生地点或拍摄地点
    • 语言。电视剧所使用的语言
    • 奖项。电视剧所获奖项
    • 其他。

3 基于标签的推荐系统

3.1 实验设置

本节利用准确率(precision)、召回率(recall)、覆盖率(coverage)、多样性(diversity)和新颖度对性能进行测评。

R ( u ) R(u) R(u)为给用户 u u u的长度为 N N N的推荐列表,包含系统认为用户会打标签的物品。
T ( u ) T(u) T(u)为用户 u u u实际上打过标签的物品集合。
准确率:系统认为用户会打标签的物品中,用户打过标签的比例
P r e c i s i o n = R ( u ) ∩ T ( u ) R ( u ) Precision = \frac{R(u)\cap{T(u)}}{R(u)} Precision=R(u)R(u)T(u)

召回率:用户打过标签的物品中,系统认为用户会打标签的比例
R e c a l l = R ( u ) ∩ T ( u ) T ( u ) Recall = \frac{R(u)\cap{T(u)}}{T(u)} Recall=T(u)R(u)T(u)

覆盖率:给所有用户推荐的物品,占所有物品的比例
C o v e r a g e = U u ∈ U R ( u ) I Coverage=\frac{U_{u\in{U}}R(u)}{I} Coverage=IUuUR(u)

多样性: 列表中物品的不相似性。其中 s ( i , j ) s(i, j) s(i,j)为物品 i i i j j j之间的余弦相似度
D i v e r s i t y = 1 − ∑ s ( i , j ) 1 2 R ( R − 1 ) , i ≠ j Diversity=1-\frac{\sum{s(i,j)}}{\frac{1}{2}R(R-1)},i\neq{j} Diversity=1

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值