《推荐系统》笔记:Chapter1

引言:本章主要回答以下问题:

1,什么是推荐系统

2,推荐系统的主要任务是什么

3,推荐系统和分类目录以及与搜索引擎的区别

本章将按不同领域分别介绍目前业界常见的个性化推荐应用。最后,将介绍推荐系统的评测的方法

一,什么是推荐系统

        随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overlord)的时代。对于信息消费者,从大量信息中找到自己感兴趣的信息是非常困难的事情;对于信息生产者,让自己生成的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这个矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。

        搜索引擎需要用户主动提供准确的关键词来寻找信息,因此不能解决用户的很多其他需求,比如当用户无法找到准确提供自己需求的关键词时,搜索引擎就无能为力了。

        和搜索引擎一样,推荐系统也是帮助用户快速发现有用信息的工具,和搜索引擎不同的是,推荐系统不需要用户提供明确的需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需求的信息。因此,推荐系统和搜索引擎是两个互补的工具。搜索引擎满足了用户明确目的的主动查找需求,而推荐系统能够在用户没有明确目的的时候帮助他们发现感兴趣的新内容。

        从物品的角度,推荐系统可以更好地发掘物品的长尾(long tail)。传统的80/20原则(80%的销售额来自20%的热门品牌),但不热门的商品数量极其庞大,因此这些长尾商品的总销售额将是一个不可小觑的数字。主流商品往往代表了绝大数用户的需求,而长尾商品往往代表了一小部分用户个性化需求。因此,如果要通过发掘长尾提高销售额,就必须充分研究用户兴趣,而这正是个性化推荐系统主要解决的问题。推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要它的用户,帮助用户发现那些他们感兴趣但很难发现的商品。

        比如,我们可能用以下方式决定最终看什么电影:

  1. 向朋友咨询,找几个经常看电影的好朋友,问问他们有没有什么电影可以推荐。社会化推荐(social recommendation)
  2. 我们一般都有喜欢的演员和导演,有些人可能会打开搜索引擎,输入自己喜欢的演员名,然后看看返回结果中还有什么电影是自己没看过的。推荐系统可以将上述过程自动化,通过分析用户曾经看过的电影找到用户喜欢的演员和导演,然后用户推荐这些演员或导演的其他电影。基于内容的推荐(content-based filtering)
  3. 我们还可能查看排行榜,比如著名的IMDB电影排行榜。看看别人都在看什么电影,别人都喜欢什么电影,然后找到一部广受好评的电影观看。这种方式可以扩展为:如果能找到和自己历史兴趣形似的一群用户,看看他们最近在看什么电影,那么结果可能比宽泛的人们排行榜更能符合自己的兴趣。基于(用户)协同过滤的推荐(collaboratve filtering)

        以上3种推荐方式,简单理解:利用好友、用户的历史兴趣记录、用户的注册信息

二,个性化推荐系统的应用

        推荐系统广泛利用的领域包括电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等。

2.1 电子商务:亚马逊 “推荐系统之王”

其一,个性化推荐,包含以下几个部分:

  1. 推荐结果的标题、缩略图以及其他内容属性
  2. 推荐结果的平均分:反映推荐结果的总体质量,也代表大部分用户对这本书的看法
  3. 推荐理由:亚马逊根据用户的历史行为给用户做推荐,因此如果它给你推荐了一本金庸的小说,大多是因为你曾经在亚马逊上对武侠方面的书给过表示喜欢的反馈。在推荐结果下面还展示了推荐原因,基于....这两本书打过5分。
  4. 这里使用的算法,基于物品的推荐算法(item base method),该算法给用户推荐那些和他们之前喜欢的物品相似的物品。

其二,按照用户在Facebook的好友关系,给用户推荐他们的好友在亚马逊上喜欢的物品,推荐的理由换成了喜欢过相关物品的用户好友的头像。

其三,相关推荐。两种相关商品列表:一种是包含购买了这个商品的用户也经常购买其他商品。另一种是包含浏览过这个商品的用户经常购买的其他商品。这两种相关推荐列表就是使用了不同用户行为计算物品的相关性。此外,相关推荐最重要的应用就是“打包销售”(cross selling),有时会提供打包购买的折扣。

        亚马逊前首席科学家Andreas Weigend在斯坦福讲课时,据听他的同学透露,亚马逊有20~30%的销售额来自推荐系统。

2.2 电影和视频网站:Netflix / YouTube

Netflix推荐包含以下几个部分:

  1. 电影标题和海报
  2. 用户反馈模块——包括:播放、评分、不感兴趣 3种
  3. 推荐理由——因为用户曾经喜欢过别的电影
  4. 该算法与亚马逊算法相似,也是基于物品的推荐算法,即给用户推荐和他们曾经喜欢的电影相似的电影

YouTube:美国最大的视频网站,拥有大量用户上传的视频内容。在YouTube最新的论文中表示,现在使用的也是基于物品的推荐算法

2.3 个性化音乐网络电台:Pandora / Last.fm

个性化推荐成功需要2个条件:

  1. 存在信息过载,如果用户可以很容易地从所有物品中找到喜欢的物品,那不需要个性化推荐了
  2. 用户大部分时间没有特别明确的需求,因为用户如果有明确的需求,可以直接通过搜索引擎找到感兴趣的物品

        在这2个条件下,个性化网络电台无疑是最合适的个性化推荐产品。首先,音乐很多,用户不可能听完所有的音乐再决定自己喜欢听什么,而且每年新的歌曲在以很快的速度增加,因此用户面临信息过载的问题。其次,人们听音乐时,一般都是把音乐作为一种背景音乐来听,很少有人必须听某首特定的歌。对于普通用户来说,听什么歌都可以,只要能够符合他们当时的心情就可以了。因此,个性化音乐网络电台是非常符合个性化推荐技术的产品。

        个性化网络电台,国际上著名的Pandora和Last.fm。

        它们都不允许用户点歌,而是给用户几种反馈方式——喜欢、不喜欢、跳过。经过一定时间的反馈,电台就可以从用户历史行为中习得用户的兴趣模型,从而使用户的播放列表越来越符合用户对歌曲的兴趣。

        Pandora背后的音乐推荐算法主要来自一个叫做音乐基因工程的项目。这个项目起始于2000年1月6日,它的成员包括音乐家和对音乐有兴趣的工程师。Pandora的算法主要基于内容,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特征(比如:旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。然后,Pandora会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之间喜欢的音乐在基因上相似的其他音乐。

        Last.fm于2002年成立于英国。Last.fm记录了所有用户在听歌记录以及用户对歌曲的反馈,在这一基础上计算出不同用户在歌曲上的喜好相似度,从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。同时,Last.fm也建立了一个社交网络,让用户能够和其他用户建立联系,同时也能让用户给好友推荐自己喜欢的歌曲。和Pandora相比,Last.fm没有使用专家标注,而是主要理由用户行为计算歌曲的相似度。

        Pandora的研究人员对音乐推荐进行了研究总结:

  1. 物品空间大:物品数很多,物品空间很大,相对于书和电影而言。
  2. 消费每首歌的代价很小:音乐都是免费的
  3. 物品种类丰富:音乐种类丰富,有很多流派
  4. 听一首歌耗时很少:听一首歌成本很小,而且用户大都把音乐作为背景声音,同时进行其他工作
  5. 物品重复率很高:每首歌用户会听很多遍,不同于书和电影
  6. 用户充满激情:用户很有激情,会听很多首歌
  7. 上下文相关:用户的口味很受当时上下文(心情)和所处情景的影响,比如:沮丧时喜欢听励志的歌曲,睡觉前喜欢听轻音乐
  8. 次序很重要:用户听音乐一般是按一定次序一首一首地听的
  9. 很多播放列表资源:很多用户都会创建很多个人播放列表
  10. 不需要用户全神贯注:听音乐多是背景音乐
  11. 高度社会化:用户听音乐的行为具有很强的社会特性,比如:我们会和好友分享自己喜欢的音乐

2.4 社交网络:Facebook / Twitter

        主要应用在3个方面:

  1. 利用用户的社交网络对用户进行个性化的物品推荐
  2. 信息流的会话推荐
  3. 给用户推荐好友

        Facebook推出了推荐API(Instant personalization),该工具根据用户好友喜欢的信息,给用户推荐他们的好友最喜欢的物品。很多网站都使用了Facebook的API来实现网络的个性化。

        社交网站本身利用社交网络给用户推荐其他用户在社交网络的会话。每个用户在Facebook的首页都能看到好友的各种分享,并能对这些分享进行评论。每个分享和所有评论被称为一个会话,如何给这些会话排序是社交网站研究的重要话题。Facebook为此开发了EdgeRank算法对这些会话排序,使用户能够尽量看到熟悉好友的最新会话。

2.5 个性化阅读:Google Reader / Zite

  1. Google reader 社会化阅读工具,用户关注自己感兴趣的人,然后看到所关注的用户分享的文章。
  2. Zite 则是收集用户给对文章的偏好信息,在每篇文章右侧标注:喜欢或不喜欢的反馈,然后通过分析用户反馈数据更新用户个性化文章列表。

2.6 基于位置的服务:Foursquare

  1. 探索功能,给用户推荐好友在附件的行为。
  2. 基于位置给用户推荐离他最近的且他感兴趣的服务,用户就有可能去消费

2.7 个性化邮件:Tapestry

        通过分析用户阅读邮件的历史行为和习惯对新邮件进行重排序,从而提高用户工作效率。谷歌2010推出优先级收件箱功能,帮用户节约6%的时间。

2.8 个性化广告

主要是3种:

  1. 上下文广告:通过用户正在浏览的网页内容,投放和网页内容相关的广告,谷歌的Adsense
  2. 搜索广告:通过分析用户在当前会话中的搜索内容,判断用户搜索目标,投放和用户目的相关的广告。
  3. 个性化展示广告:我们经常看到很多网站大量的展示广告,它们是根据用户的兴趣,对不同用户投放不同的展示广告。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值