Memory-Based One-Class Collaborative Filtering

Akie 哲旗

于 2022-08-04 10:59:35 发布

阅读量226

点赞数

分类专栏：学习的笔记文章标签：机器学习算法 python

学习的笔记专栏收录该内容

4 篇文章

订阅专栏

1、介绍

1.1 隐式反馈推荐

我们可以用矩阵的形式表示用户的隐式反馈

在这里插入图片描述

如果我们可以估计矩阵中缺失的值(用“?”表示)，或者直接对条目进行排序，我们就可以为每个用户做出推荐。

1.2 符号表示

在这里插入图片描述

2、相似度测量

2.1 Jaccard 系数

Jaccard index , 又称为Jaccard相似系数（Jaccard similarity coefficient）用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。

项目 $k$ 和项目 $j$ 之间的相似度计算公式：

$S_{kj}=\frac{\mathcal{U_k}\cap \mathcal{U_j} }{\mathcal{U_k}\cup \mathcal{U_j}}=\frac{同时喜欢k和j的用户数}{至少喜欢一个的用户数}$

$S_{kj}$ 的默认值为 0 。

2.2 余弦相似度

项目 $k$ 和项目 $j$ 之间的余弦相似度计算公式：

$S_{kj}=\frac{\mathcal{U_k}\cap \mathcal{U_j} }{\sqrt{\mathcal{U_k} } \sqrt{\mathcal{U_j}} }$

$S_{kj}$ 的默认值为 0 。

2.4 余弦相似度(加入惩罚机制)

项目 $k$ 和项目 $j$ 之间的余弦相似度计算公式：

$S_{kj}=\frac{\mathcal{U_k}\cap \mathcal{U_j} }{\sqrt{\mathcal{U_k} }^\alpha \sqrt{\mathcal{U_j}} ^{1-\alpha }}$

其中 $0.5\le \alpha \le 1$

备注
- 当 $0.5=\alpha$ 时，这就是普通的余弦相似度计算公式；
- 当 $\alpha > 0.5$ 时，就相当于给受欢迎项目 $k$ 一个惩罚权重；
- 当 $\alpha =1$ 时，它降低了关联规则挖掘的置信度；

2.5 余弦相似度(逆用户频率)

项目 $k$ 和项目 $j$ 之间的余弦相似度计算公式：
$\large S_{kj}=\frac{ {\textstyle \sum_{w\in \mathcal{U_k}\cap \mathcal{U_j}}^{}} \frac{1}{\log_{}{(1+|\mathcal{I_w} |)} } }{\sqrt{\mathcal{U_k} }^\alpha \sqrt{\mathcal{U_j}} ^{1-\alpha }}$

解释：普通余弦相似度计算公式中分子部分一个用户算1分，现在引入用户的喜欢项目数作为计算，越多分子的值越小，一直小于1。
备注：这是一个在检索领域非常出名的技巧。

2.6 关联规则挖掘的置信度

一个喜欢项目 $k$ 的用户也会喜欢项目 $j$ 的置信度计算公式：

$S_{kj}=\frac{|\mathcal{U}_k\cap \mathcal{U}_j| }{|\mathcal{U}_k|}=\frac{同时喜欢k和j的用户数}{喜欢k的用户数}$

备注
- 关联规则挖掘可以看作是基于条目的OCCF的一种特殊情况；
- 也支持定义为 $S_{kj}=\frac{|\mathcal{U}_k\cap \mathcal{U}_j| }{|\mathcal{U}|}$ ;

2.7 标准化

当我们有一个相似度评分矩阵 $\left[s_{kj}\right]_{m \times m}, k, j=1, \ldots, m$ 时，我们可以将相似性标准化如下：

$\large\bar{s}_{k j}=\frac{s_{k j}}{\max _{j^{\prime}, j^{\prime} \neq k} s_{k j^{\prime}}}$

备注
- 这并不是一个整体标准化，例如 $\frac{s_{k j}}{\max _{k^{\prime}, j^{\prime}} s_{k^{\prime} j^{\prime}}}$ 。因为当 $j = k$ 时代表项目与本身的相似度，这个计算出来没有意义

3、计算方法

3.1 邻居选择

相似度计算选择与项目 $j$ 最临近的 $k$ 个项目 $\mathcal{N_j}$ 。

3.2 基于项目的OCCF

预测规则

$\large\hat{r}_{u j}=\sum_{k \in \mathcal{I}_{u} \cap \mathcal{N}_{j}} s_{k j}$

其中 $s_{k j}$ 就是项目 $i$ 和项目 $j$ 的相似度或者关联规则挖掘的置信度。

注意到有时会 $\left|\mathcal{I}_{u} \cap \mathcal{N}_{j}\right|<K$ ，但是在OCCF中通常是被允许的。

3.3 基于用户的OCCF

预测规则

$\large\hat{r}_{u j}=\sum_{w\in\mathcal{U}_j\cap \mathcal{N}_u}^{} s_{wu}$

其中 $s_{wu}$ 就是用户 $w$ 和用户 $u$ 的相似度或者关联规则挖掘的置信度。 $\mathcal{U}_j\cap \mathcal{N}_u$ 表示既是喜欢项目 $j$ 的用户，也是 $u$ 的邻居。

注意到有时会 $\left|\mathcal{U}_{j} \cap \mathcal{N}_{u}\right|<K$ ，但是在OCCF中通常是被允许的。

4、实验

4.1 数据集

我们分别使用MovieLens100K 的u1.base和u1.test作为训练集和测试集
用户数量：n=943；项目数量：m=1682;
u1.base中共有80000条评分记录，密度为5.04%(80000/943/1682)
u1.test中共有20000条评分记录
只保留评分为4/5的的数据项，其他移除。最后我们得到u1.base.OCCF 和 u1.test.OCCF

4.2 实施细节

如果我们使用基于项目的方法，隐式反馈如何存储?
- 计算两个项目之间的相似度 $S_{kj}：\mathcal{U}_k, \mathcal{U}_j$
- 预测评分 $\hat{r}_{u j}:\mathcal{I}_u, \mathcal{N}_j$
如果我们使用基于用户的方法，隐式反馈如何存储?
- 计算两个用户之间的相似度 $S_{wu}：\mathcal{I}_w, \mathcal{I}_u$
- 预测评分 $\hat{r}_{u j}:\mathcal{U}_j, \mathcal{N}_u$

4.3 评价方法

Pre@5

用户 $u$ 的预测精确度计算公式定义如下：
$\operatorname{Pre}_{u} @ k=\frac{1}{k} \sum_{\ell=1}^{k} \delta\left(i(\ell) \in \mathcal{I}_{u}^{\mathrm{te}}\right)=\frac{命中个数}{预测序列总个数} =命中率$
其中，当 $x$ 为真时， $\delta\left(x\right)=1$ ,当 $x$ 为假时， $\delta\left(x\right)=0$ ；

$\sum_{\ell=1}^{k} \delta\left(i(\ell) \in \mathcal{I}_{u}^{t e}\right)=\left|\mathcal{I}_{u}^{r e} \cap \mathcal{I}_{u}^{t e}\right|$ 表示既属于 $\mathcal{I}_{u}^{r e}$ 又属于 $\mathcal{I}_{u}^{t e}$ 的项目数， $k$ 是预测序列的个数 $|\mathcal{I}_{u}^{r e}|$ 。

所以总精确度可以这样计算：
$\text { Pre@k }=\sum_{u \in \mathcal{U}^{\text {te }}} \operatorname{Pre}_{u} @ k /\left|\mathcal{U}^{\text {te }}\right|$
注：实际就是每个用户的精确度求和再除以用户数。

Rec@5

用户 $u$ 的召回率定义如下：
$\operatorname{Rec}_{u} @ k=\frac{1}{|\mathcal{I}_{u}^{\mathrm{te}}|} \sum_{\ell=1}^{k} \delta\left(i(\ell) \in \mathcal{I}_{u}^{\mathrm{te}}\right)=\frac{命中个数}{测试集项目数} =召回率$
这表示有多少在 $\mathcal{I}_{u}^{\mathrm{te}}$ 中的项目也在 $\mathcal{I}_{u}^{\mathrm{re}}$ 中。