推荐系统解决的问题
- 对企业而言是解决‘增长’问题,推荐系统处于‘增长引擎’的位置
- 对用户而言是解决信息过载问题,在’信息过载‘的情况下如何获得感兴趣的信息
- 推荐系统的基础问题就是’人‘和’信息‘的关系。
- 上述的信息是在电商场景是’商品信息‘,新闻场景是’新闻信息‘,视频推荐场景是’视频信息‘,更准确的说这里的信息指’物品信息‘
- 上述中的‘人’,在实际过程中‘人’也是各种数据。和人相关的信息可以被称为用户信息
- 除了用户信息和商品信息,为了使推荐系统具有实时推荐的能力,基于用户所处的时间,地点,状态等一系列环境信息也会对用户选择造成影响。统称这类信息为‘场景信息’或者‘上下文信息’
- 场景信息和上述两种信息的差距在于场景信息实时动态变化
推荐系统逻辑架构
经典推荐算法和演化路径
- 协同过滤(CF)算法族:
· ·协同过滤算法从物品相似度和用户相似度出发,衍生出两种模型ItemCF和UserCF模型。为了使协同过滤拥有处理稀疏共现矩阵和更强的泛化能力,发展出了矩阵分解MF模型,并发展出矩阵分解的各个分支模型。
- 逻辑回归模型族
- 因子分解机模型族
- 组合模型族
协同过滤
- 协同什么?
协同用户对物品的评价,反馈, 意见等信息。 - 过滤什么?
对海量信息进行过滤。 - CF具体问题?
预测用户X是否喜欢该商品A? - 已知信息储存形式?
共现矩阵 - 共现矩阵?
User\Item | item1 | item2 | item3 |
---|---|---|---|
user1 | +1 | -1 | 0 |
user2 | 0 | +1 | 0 |
user3 | -1 | ? | +1 |
- UserCF?(ItemCF同理)
计算与user兴趣相似的Top(N)用户,根据这些用户计算出对目标商品的预测值。(Top(N)中的N为超参数) - 如何计算用户相似度?(P17)
a. 余弦相似度
b. 皮尔逊相关系数
c. 基于皮尔逊的系数引入物品平均分减少评分偏置方法 - 如何计算排序参考值?
UserCF:利用用户相似度加权平均对物品A的评分
ItemCF:利用用户X对相似物品的反馈和物品相似度之间的加权求和 - UserCF的问题?
a. 需要维护用户相似度矩阵,矩阵一般以n^2的速度随用户数增长
b. 用户历史数据往往稀疏,相似用户准确度很低 - 协同过滤的问题?
处理稀疏向量的能力弱,头部效应明显(P20) - 解决上述问题方法?
MF-矩阵分解 - 经典论文
亚马逊推荐系统:Linden G , Smith B , York J . Amazon. com recommendations: Item-to-item collaborative filtering[J]. IEEE Internet Computing, 2003, 7(1):76-80.