【论文笔记】Unsupervised Generative Adversarial Cross-Modal Hashing

最新推荐文章于 2022-05-20 10:36:24 发布

hatake.18

最新推荐文章于 2022-05-20 10:36:24 发布

阅读量651

点赞数 1

本文链接：https://blog.csdn.net/weixin_45570101/article/details/106420778

版权

看的文章专栏收录该内容

6 篇文章 1 订阅

订阅专栏

Pipeline

文章基于GAN网络，提出一种无监督跨模态检索算法，算法框架图如下

网络接收原始文本和图片作为输入，采用神经网络分别提取特征文本和图片特征，

生成器

生成器采用两路网络，分别接收上面提取到的文本和图片特征向量，后面接两个全连接层，一层用于将特征向量映射到公共空间，一层用于生成哈希码。

给定某个模态中的查询样例，生成器目的在于拟合Manifold Pairs的分布，从另一个模态的样例中找到和查询样例相关的样例。相关程度采用下面的概率判断
$p_{\theta}\left(x^{U} | q\right)=\frac{\exp \left(-\left\|h(q)-h\left(x^{U}\right)\right\|^{2}\right)}{\sum_{x^{U}} \exp \left(-\left\|h(q)-h\left(x^{U}\right)\right\|^{2}\right)}$
$q$ 为查询样例， $x^{U}$ 为另一模态的样例， $h (*)$ 为哈希码

鉴别器

鉴别器接收生成器生成的’假’样本和关联图采样得到的Manifold Pairs（’真‘样本）作为输入，采用triplet ranking loss作为损失函数。

构建关联图
首先分别为文本和图片模态构建两个无向图, $Graph_{i}=(V,W_{i})$ 和 $Graph_{i}=(V,W_{i})$ ， $V$ 为顶点， $W_{i}$ 和 $W_{j}$ 为相似度矩阵，定义如下
$q)=\left\{\begin{array}{cc} 1: & x_{p} \in N N_{k}\left(x_{q}\right) \\ 0: & \text { otherwise } \end{array}\right.$
$N_{k}\left(x_{q}\right)$ 为 $x_{q}$ 的 $k$ 邻近节点，需要注意的是，跨模态数据集中成对信息自然存在，若文本查询样例 $q_{j}$ 和文本 $t_{k}$ 有相同的潜在结构，即语义相似，则与 $t_{k}$ 成对的图像 $i_{k}$ 与 $q_{j}$ 也有相同的潜在结构，反之亦然。

判别概率
鉴别器接收生成器和关联图产生的样本作为输入，输出每个对的得分做判别结果。给定查询样例 $q$ 和实例 $x^{U}$ ,三元组损失定义如下
$f_\phi(x^G,q) = \max(0, m+\|h(q) - h(x^M)\|^2 - \|h(q) - h(x^G)\|^2)$

$x^{U}$ 为相关图生成的真实样本
$x^{G}$ 为生成器生成的样本
$m$ 为margin值，文章中设为1
三元组损失使得查询样例与真实样本间的距离比生成器生成的样本之间的距离要近

给定 $q$ ,样本 $x$ 的预测概率定义如下：
$sigmoid(f_\phi(x,q)) = \frac{\exp(f_\phi(x,q))}{1+\exp(f_\phi(x,q))}$

鉴别器就是使得 $D(x^M|q)$ 更大 $D(x^G|q)$ 更小，使用鉴别器模型进行跨模态检索。

生成对抗学习

$\begin{aligned} \mathcal{V}(G, D)=& \min _{\theta} \max _{\phi} \sum_{j=1}^{n}\left(E_{x \sim p_{t r u e}\left(x^{M} | q^{j}\right)}\left[\log \left(D\left(x^{M} | q^{j}\right)\right)\right]\right.\\ &\left.+E_{x \sim p_{\theta}\left(x^{G} | q^{j}\right)}\left[\log \left(1-D\left(x^{G} | q^{j}\right)\right)\right]\right) \end{aligned}$

hatake.18

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【论文笔记】Unsupervised Generative Adversarial Cross-Modal Hashing

Pipeline文章基于GAN网络，提出一种无监督跨模态检索算法，算法框架图如下网络接收原始文本和图片作为输入，采用神经网络分别提取特征文本和图片特征，生成器生成器采用两路网络，分别接收上面提取到的文本和图片特征向量，后面接两个全连接层，一层用于将特征向量映射到公共空间，一层用于生成哈希码。给定某个模态中的查询样例，生成器目的在于拟合Manifold Pairs的分布，从另一个模态的样例中找到和查询样例相关的样例。相关程度采用下面的概率判断pθ(xU∣q)=exp⁡(−∥h(q)−h(xU)∥
复制链接

扫一扫

专栏目录