–未经授权,禁止转载–
第四章 利用用户标签数据
1 利用用户标签综述
目前的推荐系统基本上通过三种方式联系用户兴趣与物品:对于第三种推荐方法,特征有不同的表现形式,如隐语义向量,标签等。本章主要讨论标签这种特征表现形式。
根据打标签的人不同,可以将标签分为两种:一种是让作者或专家给物品打标签;一种是让用户给物品打标签,即用户生成的内容(User Generated Content, UGC)的应用。当一个用户对物品打上标签,这个标签一方面描述了用户的兴趣,另一方面表示了物品的语义,从而将物品和用户联系起来。
标签系统在各种各样的网站中都得到了广泛应用。它最大的优势在于能够发挥群体智能,获得对物品内容信息比较准确的关键词描述。UGG标签系统的代表应用如下:
- Delicious。Delicious允许用户给互联网上的每个网页打标签,从而通过标签重组整个互联网。比如对豆瓣电台的标签为:music、radio、douban、豆瓣、音乐、web2.0……
- CiteULike。CiteULike是一个论文书签网站,允许研究人员收藏感兴趣的论文并给论文打标签。通过群体智能,让每个研究人员对自己了解的论文进行标记,借此帮助其他人员更好地发现自己感兴趣的论文。
- ……
2 标签系统中的推荐问题
标签系统中的推荐问题包括:如何利用用户打标签的行为推荐物品(基于标签的推荐),如何在用户给物品打标签时推荐适合该物品的标签(标签推荐)为研究上述问题,需要了解:用户为什么打标签,用户如何打标签,用户打什么样的标签
-
用户为什么打标签
- 社会维度:便于上传者组织自己的信息;便于帮助其他用户找到信息
- 功能维度:用于更好地组织内容,方便用户查找;用于传达信息,如拍照时间和地点
-
用户如何打标签
标签的流行度分布呈长尾分布,如下图所示,横轴表示标签的流行度k,即一个标签被用户的使用次数。纵轴表示流行度为k的标签总数。
-
用户打什么样的标签
可以通过以下几点设计标签:- 表明物品是什么。如鸟,豆瓣乔布斯
- 表明物品的种类。如文章,博客,图书
- 表明物品拥有者。如作者信息
- 表明用户观点。如有趣,无聊
- 用户相关标签。如我喜欢的,我的评论
- 用户相关任务。如即将阅读,找工作
Hulu对电视剧的标签示例:
- 类型。如医学剧情片
- 时间。包括电视剧发布时间,或电视剧中剧情发生时间
- 人物。包括电视剧导演、演员及剧中的重要人物
- 地点。包括剧情发生地点或拍摄地点
- 语言。电视剧所使用的语言
- 奖项。电视剧所获奖项
- 其他。
3 基于标签的推荐系统
3.1 实验设置
本节利用准确率(precision)、召回率(recall)、覆盖率(coverage)、多样性(diversity)和新颖度对性能进行测评。
R ( u ) R(u) R(u)为给用户 u u u的长度为 N N N的推荐列表,包含系统认为用户会打标签的物品。
T ( u ) T(u) T(u)为用户 u u u实际上打过标签的物品集合。
准确率:系统认为用户会打标签的物品中,用户打过标签的比例
P r e c i s i o n = R ( u ) ∩ T ( u ) R ( u ) Precision = \frac{R(u)\cap{T(u)}}{R(u)} Precision=R(u)R(u)∩T(u)
召回率:用户打过标签的物品中,系统认为用户会打标签的比例
R e c a l l = R ( u ) ∩ T ( u ) T ( u ) Recall = \frac{R(u)\cap{T(u)}}{T(u)} Recall=T(u)R(u)∩T(u)
覆盖率:给所有用户推荐的物品,占所有物品的比例
C o v e r a g e = U u ∈ U R ( u ) I Coverage=\frac{U_{u\in{U}}R(u)}{I} Coverage=IUu∈UR(u)
多样性: 列表中物品的不相似性。其中 s ( i , j ) s(i, j) s(i,j)为物品 i i i和 j j j之间的余弦相似度
D i v e r s i t y = 1 − ∑ s ( i , j ) 1 2 R ( R − 1 ) , i ≠ j Diversity=1-\frac{\sum{s(i,j)}}{\frac{1}{2}R(R-1)},i\neq{j} Diversity=1−