Region or Global? A Principle for Negative Sampling in Graph-based Recommendation (TKDE’22)
中间区域
在GCN-RS里,负采样应该选取距离user中间的区域,太近的区域一般是用户聚合的物品,太远的没什么信息量,距离不远不近的样本可以看作是信息量比较大的难样本。
定义距离user k阶的物品是中间区域 R m e d R_{m e d} Rmed,可以用逐层广度优先搜索得到 R m e d R_{m e d} Rmed。
从中间区域 R m e d R_{m e d} Rmed选择 M 个负样本形成负样本候选集 C u C_{u} Cu,然后从 C u C_{u} Cu中用两种策略得到难负样本。
作者声称中间区域 R m e d R_{m e d} Rmed 远小于整个物品集,但我在数据集上统计仅仅是3-hop,绝大部分 R m e d R_{m e d} Rmed 几乎包含了整个数据集:
策略一:正样本辅助
类似于MixUp技术,为了得到user的难负样本,不仅仅和user u u u有关,还和user的正样本 v v v 有关,对于一对正样本 ( u , v ) (u,v) (u,v), C u C_{u} Cu中负样本 v n p v_{n}^{p} vnp被采得概率为:
p n ( v n p ∣ ( u , v ) ) = σ ( α ( e u ∗ ⋅ e v n p ∗ ) + ( 1 − α ) ( e v ∗ ⋅ e v n p ∗ ) ) ∑ v i ∈ C u σ ( α ( e u ∗ ⋅ e v i ∗ ) + ( 1 − α ) ( e v ∗ ⋅ e v i ∗ ) ) p_{n}\left(v_{n}^{p} \mid(u, v)\right)=\frac{\sigma\left(\alpha\left(\mathbf{e}_{u}^{*} \cdot \mathbf{e}_{v_{n}^{p}}^{*}\right)+(1-\alpha)\left(\mathbf{e}_{v}^{*} \cdot \mathbf{e}_{v_{n}^{p}}^{*}\right)\right)}{\sum_{v_{i} \in \mathcal{C}_{u}} \sigma\left(\alpha\left(\mathbf{e}_{u}^