(TODO)Empirical Analysis of Predictive Algorithm for Collaborative Filtering

最新推荐文章于 2023-04-17 14:53:19 发布

woailuo512

最新推荐文章于 2023-04-17 14:53:19 发布

阅读量782

点赞数

分类专栏： Paper/Recommendation System 文章标签：论文总结推荐系统协同过滤算法

本文链接：https://blog.csdn.net/woailuo512/article/details/78296494

版权

Paper/Recommendation System 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文《Empirical Analysis of Predictive Algorithm for Collaborative Filtering》总结

paper

1. 摘要

只分析了基于用户的协同过滤算法(Memory-Based and Model-Based Algorithms); 实验分析了显式和隐式数据(Explicit and Implicit Data)

Memory-based algorithms operate over the entire user database to make predictions. Model-based collaborative filtering, in contrast, uses the user database to estimate or learn a model, which is then used for predictions.

2. Memory-based algorithms

2.1 基本定义

基本公式

P a, j = v ¯ a + κ \sum i = 1 N w (a, i) (v i - v ¯ i) (1)

$P_{a,j}=\bar{v}_{a}+\kappa \sum_{i=1}^{N}w(a,i)(v_{i}-\bar{v}_{i})\tag{1}$

w(a,i) $w(a,i)$ 为用户a和用户i的关系权重。
为什么要减去用户平均值？系数干什么用？计算用户之间的权重用什么方法？

2.2 Correlation

w (a, i) = \sum j ( v a , j - v ¯ a ) ( v i , j - v ¯ i ) \sum j ( v a , j - v ¯ a ) 2 ( v i , j - v ¯ i ) 2 - - - - - - - - - - - - - - - - - - - - \sqrt (2)

$w(a,i) = \frac{ \sum_j(v_{a,j}-\bar{v}_a)(v_{i,j}-\bar{v}_i) }{\sqrt{\sum_j(v_{a,j}-\bar{v}_a)^{2}(v_{i,j}-\bar{v}_i)^2}} \tag{2}$ 注： j只是用户a和用户i的投票(vote)项目交集

2.3 Vector Similarity

w (a, i) = \sum j v a , j \sum k \subseteq I a v 2 a , k - - - - - - - - \sqrt v i , j \sum k \subseteq I i v 2 i , k - - - - - - - - \sqrt (3)

$w(a,i) = \sum_{j}\frac{v_{a,j}}{\sqrt{\sum_{k\subseteq I_a}v_{a,k}^2}}\frac{v_{i,j}}{\sqrt{\sum_{k\subseteq I_i}v_{i,k}^2}} \tag{3}$ 注： j只是用户a和用户i的投票(vote)项目交集, 但是与Correlation不同的是分母的项目是用户所有投票项目

2.4 Extension to Memory-based algorithms

2.4.1 Default Voting

w (a, i) = ( n + k ) ( \sum j v a , j v i , j + k d 2 ) - ( \sum j v a , j + k d ) ( \sum j v i , j + k d ) ( ( n + k ) ( \sum j v 2 a , j + k d 2 ) - ( \sum j v a , j + k d ) 2 ) ( ( n + k ) ( \sum j v 2 i , j + k d 2 ) - ( \sum j v i , j + k d ) 2 ) - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt (4)

$w(a,i)=\frac{(n+k)(\sum_j v_{a,j}v_{i,j} + kd^2 )-(\sum_j v_{a,j}+kd)(\sum_j v_{i,j}+kd)}{\sqrt{( (n+k)(\sum_j v_{a,j}^2 + kd^2)-(\sum_j v_{a,j}+kd)^2 )( (n+k)(\sum_j v_{i,j}^2+kd^2) -(\sum_j v_{i,j} + kd)^2 )}}\tag{4}$
注：d是默认填充值；n是用户a和用户i的投票项目并集; k是额外填充项目个数
这个思想为什么只在公式(2)上面改进?

2.4.2 Inverse User Frequency

借鉴Inverse Item Frequency思想[1]

The idea is to reduce weights for commonly occurring words, capturing the intuition that they are not as useful in identifying the topic of a document, while words that occur less frequently are more indicative of topic.

w (a, i) = \sum j f j \sum j f j v a , j v i , j - ( \sum j f j v a , j ) ( \sum j f j v i , j ) U V - - - \sqrt

$w(a,i) = \frac{\sum_j f_j \sum_j f_j v_{a,j}v_{i,j} - (\sum_j f_j v_{a,j})(\sum_j f_j v_{i,j})} {\sqrt{UV}}$

U = \sum j f j (\sum j f j v 2 a, j - (\sum j f j v a, j) 2)

$U = \sum_j f_j (\sum_j f_j v_{a,j}^2 - (\sum_j f_j v_{a,j})^2)$

V = \sum j f j (\sum j f j v 2 i, j - (\sum j f j v i, j) 2)

$V = \sum_j f_j (\sum_j f_j v_{i,j}^2 - (\sum_j f_j v_{i,j})^2)$
注: 这个思想为什么只在公式(2)上运用？

3. Model-Based Algorithms

3.1 基本定义

p a, j = E (v a, j) = \sum i = 0 m P r (v a, j = i | v a, k, k \in I a) i (5)

$p_{a,j}=E(v_{a,j})=\sum_{i=0}^{m}Pr(v_{a,j}=i|v_{a,k},k\in I_a)i\tag{5}$
注：用户的投票分数从0~m, 为整数

3.2 Cluster Model

TODO

没看懂，2017:10:20:20:29

3.3 Bayesian Network Model

TODO

没看懂，2017:10:20:20:29

Experiment

TODO

因为3.2和3.3没看懂, 所以等弄懂后再看

References

[1] Introduction to Modern Information Retrieval， Salton and McGill, 1983

woailuo512

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(TODO)Empirical Analysis of Predictive Algorithm for Collaborative Filtering

论文《Empirical Analysis of Predictive Algorithm for Collaborative Filtering》总结paper摘要只分析了基于用户的协同过滤算法(Memory-Based and Model-Based Algorithms); 实验分析了显式和隐式数据(Explicit and Implicit Data) Memory-b
复制链接

扫一扫