3.3.3 Time-related sampling strategy
如下图,假设 { e 0 , e 1 , e 2 } \{e_0,e_1,e_2\} {e0,e1,e2}是将被检测的一个batch里的三条边,这时,如果我们要更新 e 0 e_0 e0的embedding,就需要先计算 item i 0 i_0 i0和 user u 0 u_0 u0的embedding。
假设我们的最大采样数是2,从 item 的角度来看,我们将从
{
e
3
,
e
4
,
e
5
}
\{e_3,e_4,e_5\}
{e3,e4,e5}里选择与
e
0
e_0
e0发布时间最相近的两条评论,假设我们选择的是
e
3
,
e
4
e_3,e_4
e3,e4,那么item
i
0
i_0
i0 将会聚合
{
e
3
,
u
1
}
\{e_3,u_1\}
{e3,u1} 和
{
e
4
,
u
2
}
\{e_4,u_2\}
{e4,u2}的信息来更新自己。从 user 的角度来看,
{
e
6
,
i
1
}
\{e_6,i_1\}
{e6,i1}将被用来更新user
u
0
u_0
u0。
3.3.4 Incorporate GCNs with Text Classification Model
每个user节点和 item节点在 layer 0 的特征是它们自身的属性特征,那么每条边的初始输入特征呢?由于,每条边代表一条评论,经Word2Vector方法预处理,得到文本的 embedding,再将其输入TextCNN(text classification model),最终输出comment的 embedding.
h
e
0
=
Text
C
N
N
(
w
0
,
w
1
,
w
2
,
⋯
,
w
n
)
h_{e}^{0}=\operatorname{Text} \mathrm{CNN}\left(w_{0}, w_{1}, w_{2}, \cdots, w_{n}\right)
he0=TextCNN(w0,w1,w2,⋯,wn)