1 摘要
论文题目:TrustSVD: Collaborative Filtering with Both the Explicit and Implicit Influence of User Trust and of Item Ratings
论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/9153
代码链接:https://github.com/guoguibing/librec/
协同过滤存在数据稀疏性和冷启动等问题,极大地降低了推荐性能。为了帮助解决这些问题,提出TrustSVD,一种基于信任的矩阵分解技术。通过分析来自四个真实数据集的社会信任数据,得出结论,在推荐模型中,应该考虑评分和信任的显式影响和隐式影响。因此,在最先进的推荐算法SVD++的基础上进行构建,SVD++本质上涉及评分物品的显式和隐式影响,通过进一步结合受信任用户的显式和隐式影响对活跃用户的物品进行预测。
2 介绍
本文提出了一种新的基于信任的推荐模型TrustSVD。该方法建立在最先进的SVD++模型之上,其中用户-物品评分的显式和隐式影响都涉及到生成预测。据作者所知,该工作是第一个用社会信任信息扩展SVD++。具体地说,一方面,信任的隐含影响(谁信任谁)可以通过扩展用户建模自然地添加到SVD++模型中。另一方面,信任的显式影响(信任值)用于约束用户特定向量应符合其社会信任关系。这确保了即使给出了很少或没有评分,也可以从用户的信任信息中学习特定于用户的向量。这样可以更好地缓解数据稀疏和冷启动问题。因此,新模型结合了物品评分和用户信任的显性和隐性影响。此外,采用加权 λ \lambda λ 正则化技术进一步避免了模型学习的过拟合问题。对四个真实数据集的实验结果表明,该方法比其他基于信任的对应方法以及其他评级良好的模型(总共10种方法)获得了显著的准确性,并且更能够应对冷启动情况。
3 信任分析
实验使用的四个数据集的统计信息,见表1所示。
从四个数据集中可以得出两个重要信息:
(1)信任信息非常稀疏,但与评级信息是互补的;
(2)在相似信任关系的概念下,用户的评分与其社会邻居的平均评分呈弱正相关,而在信任关系的概念下,用户的评分与邻居的平均评分呈强正相关。
4 TrustSVD模型
4.1 问题定义
本文中推荐问题为基于用户-物品评分矩阵和用户-用户信任矩阵,预测用户给予未知物品的评分。假设推荐系统包含 m m m 个用户和 n n n 个物品。令 R = [ r u , i ] m × n R = [r_{u,i}]_{m \times n} R=[ru,i]m×n 表示用户-物品评分矩阵,其中每一项 r u , i r_{u,i} ru,i 表示用户 u u u 对物品 i i i 的评分。 I u I_u Iu 表示被用户 u u u 评分的物品集合, p u p_u pu 和 q i q_i qi 分别表示用户 u u u 和物品 i i i 的 d d d 维潜在特征向量。矩阵分解的本质是找到两个低秩矩阵:用户特征矩阵 P ∈ R d × m P \in \mathbb{R}^{d \times m} P∈Rd×m 和物品特征矩阵 Q ∈ R d × n Q \in \mathbb{R}^{d \times n} Q∈Rd×n ,这两个低秩矩阵可以充分恢复评级矩阵 R R R ,即 R ≈ P T Q R≈P ^T Q R≈PTQ 。因此,用户 u u u 对物品 j j j 的评价可以通过用户特定向量 p u p_u pu 和物品特定向量 q j q_j qj 的内积来预测,即 r u , j = q j T p u r_{u,j} = q_j^T p_u ru,j=qjTpu 。在这方面,推荐的主要任务是预测评级 r u , j r_{u,j} ru,j 尽可能接近于真实值 r u , j r_{u,j} ru,j 。形式上,可以通过最小化以下损失(目标)函数来学习用户和物品特征矩阵:
L r = 1 2 ∑ u ∑ j ∈ I u ( q j T p u − r u , j ) 2 + λ 2 ( ∑ u ∥ p u ∥ F 2 + ∑ j ∥ q j ∥ F 2 ) L_r = \frac{1}{2} \sum_u \sum_{j \in I_u} (q_j^T p_u - r_{u,j})^2 + \frac{\lambda}{2} (\sum_u \parallel p_u \parallel_F^2 + \sum_j \parallel q_j \parallel_F^2) Lr=21u∑j∈Iu∑(qjTpu−ru,j)2+2λ(u∑∥pu∥F2+j∑∥qj∥F2)
其中, ∥ ⋅ ∥ F \parallel \cdot \parallel _F ∥⋅∥F 表示F范数, λ \lambda λ 是控制模型复杂度和避免过拟合的参数。
社交网络用 G = ( V , E ) G = (V, E) G=(V,E) 表示,其中 V V V 包含 m m m 个节点(用户)的集合, E E E 表示用户之间有向的信任关系。用邻接矩阵 T = [ t u , v ] m × m T = [t_{u,v}]_{m \times m} T=[tu,v]m×m 来描述边 E E E 的结构, 其中 t u , v t_{u,v} tu,v 表示用户 u u u 信任用户 v v v。将 p u p_u pu 和 w v w_v wv 分别表示为信任者 u u u 和受信者 v v v 的 d d d 维潜在特征向量。将信任矩阵中的信任者和评f分矩阵中的活跃用户限制在相同的用户特征空间中,以便将它们连接在一起。因此,有信任特征矩阵 P d × m P^{d \times m} Pd×m 和信任特征矩阵 W d × m W^{d \times m} Wd×m 。通过采用低秩矩阵近似,可以通过 T ≈ P T W T≈P^T W T≈PTW 来恢复信任矩阵。因此,信任关系可以通过特定信任向量和特定信任向量 t u , v = w v T p u t_{u,v} = w_v^T p_u tu,v=wvTpu 的内积来预测。矩阵 P P P 和 W W W 可以通过最小化如下损失函数来学习:
L t = 1 2 ∑ u ∑ v ∈ T u ( w v T p u − t u , v ) 2 + λ 2 ( ∑ u ∥ p u ∥ F 2 + ∑ v ∥ w v ∥ F 2 ) L_t = \frac{1}{2} \sum_u \sum_{v \in T_u} (w_v^T p_u - t_{u,v})^2 + \frac{\lambda}{2} (\sum_u \parallel p_u \parallel_F^2 + \sum_v \parallel w_v \parallel_F^2) Lt=21u∑v∈Tu∑(wvTpu−tu,v)2+2λ(u∑∥pu∥F2+v∑∥wv∥F2)
其中, T u T_u Tu 是被用户 u u u 信任的用户集合。
4.2 TrustSVD模型
用户 u u u 对物品 i i i 的评分为
r ^ u , j = b u + b j + μ + q j T ( p u + ∣ I u ∣ − 1 2 ∑ i ∈ I u y i + ∣ T u ∣ − 1 2 ∑ v ∈ T u w v ) \hat{r}_{u,j} = b_u + b_j + \mu + q_j^T (p_u + |I_u|^{-\frac{1}{2}} \sum_{i \in I_u} y_i + |T_u|^{-\frac{1}{2}} \sum_{v \in T_u} w_v) r^u,j=bu+bj+μ+qjT(pu+∣Iu∣−21i∈Iu∑yi+∣Tu∣−21v∈Tu∑wv)
其中, b u b_u bu 和 b i b_i bi 分别表示用户和物品的偏置, μ \mu μ 表示全局平均评分, y i y_i yi 表示用户 u u u 过去评分的物品对未来未知物品评分的隐含影响, w v w_v wv 表示被用户 u u u 信任的用户的特定用户潜在特征向量。
目标函数:
L r = 1 2 ∑ u ∑ j ∈ I u ( r ^ u . j − r u , j ) 2 + λ 2 ( ∑ u b u 2 + ∑ j b j 2 + ∑ u ∥ p u ∥ F 2 + ∑ j ∥ q j ∥ F 2 + ∑ i ∥ y i ∥ F 2 + ∑ v ∥ w v ∥ F 2 ) L_r = \frac{1}{2} \sum_u \sum_{j \in I_u} (\hat{r}_{u.j} - r_{u,j})^2 + \frac{\lambda}{2} (\sum_u b_u^2 + \sum_j b_j^2 + \sum_u \parallel p_u \parallel_F^2 + \sum_j \parallel q_j \parallel_F^2 + \sum_i \parallel y_i \parallel_F^2 + \sum_v \parallel w_v \parallel_F^2) Lr=21u∑j∈Iu∑(r^u.j−ru,j)2+2λ(u∑bu2+j∑bj2+u∑∥pu∥F2+j∑∥qj∥F2+i∑∥yi∥F2+v∑∥wv∥F2)
5 实验
6 总结与未来工作
本文提出了一种新的基于信任的矩阵分解模型,该模型融合了评分信息和信任信息。对四个真实世界数据集的信任分析表明,信任和评级是相互补充的,对于更准确的推荐都至关重要。新方法TrustSVD在预测未知物品的评分时,考虑了评分和信任信息的显性和隐性影响。采用加权 l a m b d a lambda lambda 正则化技术进一步正则化用户和物品特定的潜在特征向量。综合实验结果表明,在不同的测试视图和不同信任程度的用户之间,TrustSVD在预测准确性方面优于基于信任和评分的方法。在未来的工作中,打算同时考虑委托人和受托人的影响,进一步完善所提出的模型。
注:其余部分请见原文!