Hulu的推荐引擎阅读笔记

========

数据准备

========

一, Item Data

shows’ type:

  1. on-air shows(直播剧)
  2. library shows(普通剧情)

他们的重要性以及时域上的变化结构

其中直播剧很重要,占了一大部分流量,普通剧情也非常重要,到了夏天,周末,直播局的流量就会下降,普通剧就会上升。

 

二, User Data

implict:info of user watch, browsing, searching

explict:voting data

 

========

系统架构

========

一, 在线部分

User profile builder: historical behaviors and topics generate from old behavior,using topic model to generate the user topic

Recommendation Core: 推荐出所有的相似宝贝

Filtering: 去掉用户已经看了的

Ranking:重排序保证多样性和新奇性

Explanation:向用户解释自己推荐的原因

 

二, 离线部分架构:

Data Center:存在hadoop集群和关系型数据库中

Related Table Generator:从两种的来:itemsCF和content-based(title, description, channel, company, actor/actress, and tags)

Topic Model:使用topic model来计算相似度,使用的是LDA 的topic model,聚类的数量小于频道数

Feedback Analyzer:降低那些推荐多次但是无人点击的,根据用户偏向于vote推荐和watch推荐来调节用户方面的参数

Report Generator:各种报表CTR,覆盖率

=====

算法

=====

一, Item-based Collaborative Filtering:

r(u,j)是用户u对j的偏好,s(i,j)是(i,j)的相似程度

n(i)是看了i的用户集合

 

二, Recent Behavior:

用户最近的表现比以前的行为更重要,所以最近行为的打分更重要

 

三, 新奇性:

1. 降低流行的产品

2. 给用户推荐用户的产品与用户以前看的流行的和不流行的分别相关的产品

四, Explanation-based Diversity:

解释以后对那些看了10个以上show的用户是有帮助的

五, Temporal Diversity:

1. 推荐最新的show,保持多样性

2. 给推荐的结果洗牌

3. 降低用户已经看了多遍的show,提高ctr10%

========

性能分析

========

 

========

经验集锦

========

Every user behavior can reflect user preferences.

Every user behavior can reflect user preferences.

Recent behaviors are much more important than old behaviors

Novelty, Diversity, and offline Accuracy are all important factors



http://www.cnblogs.com/wentingtu/archive/2012/04/22/2464752.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值