文章链接:https://arxiv.org/abs/2004.00280
这篇文章想法比较有意思,基于知识蒸馏(Knowledge Distillation),采用一个无监督算法的输出信息,来指导一个有监督算法。
文章中无监督算法采用UGACH(Unsupervised Generative Adversarial Cross-Modal Hashing),监督算法采用DCMH(Deep Cross-Modal Hashing),无监督算法的输出信息为相似性矩阵
S
i
,
j
S_{i,j}
Si,j,算法模型图如下
与UGACH算法中采用
k
k
k邻近思想来确定相似度矩阵的方法不同,本文采用特征性向量的欧式距离来确定相似度矩阵,文章中尝试了几种不同的算法如下:
- v i I v_{i}^{I} viI为原始图片特征向量, v i T v_{i}^{T} viT为原始文本向量
- f i I f_{i}^{I} fiI为经过神经网络得到的图片向量, f i T f_{i}^{T} fiT为经过神经网络得到的文本向量
由于相似性矩阵不能直接求得,使得在原始的目标函数中要引入新的一项
θ
I
,
⋆
,
θ
T
,
⋆
=
arg
min
θ
1
,
θ
T
=
∑
i
,
j
S
i
,
j
⋅
∣
f
i
I
−
f
j
T
∣
\boldsymbol{\theta}^{\mathrm{I}, \star}, \boldsymbol{\theta}^{\mathrm{T}, \star}=\arg \min _{\boldsymbol{\theta}^{1}, \boldsymbol{\theta}^{\mathrm{T}}}=\sum_{i, j} S_{i, j} \cdot\left|\mathbf{f}_{i}^{\mathrm{I}}-\mathbf{f}_{j}^{\mathrm{T}}\right|
θI,⋆,θT,⋆=argθ1,θTmin=i,j∑Si,j⋅∣∣fiI−fjT∣∣