Pipeline
文章基于GAN网络,提出一种无监督跨模态检索算法,算法框架图如下
网络接收原始文本和图片作为输入,采用神经网络分别提取特征文本和图片特征,
生成器
生成器采用两路网络,分别接收上面提取到的文本和图片特征向量,后面接两个全连接层,一层用于将特征向量映射到公共空间,一层用于生成哈希码。
给定某个模态中的查询样例,生成器目的在于拟合Manifold Pairs
的分布,从另一个模态的样例中找到和查询样例相关的样例。相关程度采用下面的概率判断
p
θ
(
x
U
∣
q
)
=
exp
(
−
∥
h
(
q
)
−
h
(
x
U
)
∥
2
)
∑
x
U
exp
(
−
∥
h
(
q
)
−
h
(
x
U
)
∥
2
)
p_{\theta}\left(x^{U} | q\right)=\frac{\exp \left(-\left\|h(q)-h\left(x^{U}\right)\right\|^{2}\right)}{\sum_{x^{U}} \exp \left(-\left\|h(q)-h\left(x^{U}\right)\right\|^{2}\right)}
pθ(xU∣q)=∑xUexp(−∥h(q)−h(xU)∥2)exp(−∥∥h(q)−h(xU)∥∥2)
q
q
q为查询样例,
x
U
x^{U}
xU为另一模态的样例,
h
(
∗
)
h(*)
h(∗)为哈希码
鉴别器
鉴别器接收生成器生成的’假’样本和关联图采样得到的Manifold Pairs
(’真‘样本)作为输入,采用triplet ranking loss
作为损失函数。
构建关联图
首先分别为文本和图片模态构建两个无向图,
G
r
a
p
h
i
=
(
V
,
W
i
)
Graph_{i}=(V,W_{i})
Graphi=(V,Wi)和
G
r
a
p
h
i
=
(
V
,
W
i
)
Graph_{i}=(V,W_{i})
Graphi=(V,Wi),
V
V
V为顶点,
W
i
W_{i}
Wi和
W
j
W_{j}
Wj为相似度矩阵,定义如下
w
(
p
,
q
)
=
{
1
:
x
p
∈
N
N
k
(
x
q
)
0
:
otherwise
w(p, q)=\left\{\begin{array}{cc} 1: & x_{p} \in N N_{k}\left(x_{q}\right) \\ 0: & \text { otherwise } \end{array}\right.
w(p,q)={1:0:xp∈NNk(xq) otherwise
N
N
k
(
x
q
)
N N_{k}\left(x_{q}\right)
NNk(xq)为
x
q
x_{q}
xq的
k
k
k邻近节点,需要注意的是,跨模态数据集中成对信息自然存在,若文本查询样例
q
j
q_{j}
qj和文本
t
k
t_{k}
tk有相同的潜在结构,即语义相似,则与
t
k
t_{k}
tk成对的图像
i
k
i_{k}
ik与
q
j
q_{j}
qj也有相同的潜在结构,反之亦然。
判别概率
鉴别器接收生成器和关联图产生的样本作为输入,输出每个对的得分做判别结果。给定查询样例
q
q
q和实例
x
U
x^{U}
xU,三元组损失定义如下
f
ϕ
(
x
G
,
q
)
=
max
(
0
,
m
+
∥
h
(
q
)
−
h
(
x
M
)
∥
2
−
∥
h
(
q
)
−
h
(
x
G
)
∥
2
)
f_\phi(x^G,q) = \max(0, m+\|h(q) - h(x^M)\|^2 - \|h(q) - h(x^G)\|^2)
fϕ(xG,q)=max(0,m+∥h(q)−h(xM)∥2−∥h(q)−h(xG)∥2)
- x U x^{U} xU为相关图生成的真实样本
- x G x^{G} xG为生成器生成的样本
- m m m为margin值,文章中设为1
- 三元组损失使得查询样例与真实样本间的距离比生成器生成的样本之间的距离要近
给定
q
q
q,样本
x
x
x的预测概率定义如下:
D
(
x
∣
q
)
=
s
i
g
m
o
i
d
(
f
ϕ
(
x
,
q
)
)
=
exp
(
f
ϕ
(
x
,
q
)
)
1
+
exp
(
f
ϕ
(
x
,
q
)
)
D(x|q) = sigmoid(f_\phi(x,q)) = \frac{\exp(f_\phi(x,q))}{1+\exp(f_\phi(x,q))}
D(x∣q)=sigmoid(fϕ(x,q))=1+exp(fϕ(x,q))exp(fϕ(x,q))
鉴别器就是使得 D ( x M ∣ q ) D(x^M|q) D(xM∣q)更大 , D ( x G ∣ q ) ,D(x^G|q) ,D(xG∣q)更小,使用鉴别器模型进行跨模态检索。
生成对抗学习
V ( G , D ) = min θ max ϕ ∑ j = 1 n ( E x ∼ p t r u e ( x M ∣ q j ) [ log ( D ( x M ∣ q j ) ) ] + E x ∼ p θ ( x G ∣ q j ) [ log ( 1 − D ( x G ∣ q j ) ) ] ) \begin{aligned} \mathcal{V}(G, D)=& \min _{\theta} \max _{\phi} \sum_{j=1}^{n}\left(E_{x \sim p_{t r u e}\left(x^{M} | q^{j}\right)}\left[\log \left(D\left(x^{M} | q^{j}\right)\right)\right]\right.\\ &\left.+E_{x \sim p_{\theta}\left(x^{G} | q^{j}\right)}\left[\log \left(1-D\left(x^{G} | q^{j}\right)\right)\right]\right) \end{aligned} V(G,D)=θminϕmaxj=1∑n(Ex∼ptrue(xM∣qj)[log(D(xM∣qj))]+Ex∼pθ(xG∣qj)[log(1−D(xG∣qj))])