Deep Hashing Learning for Visual and Semantic Retrieval of Remote Sensing Images(DHCNN)

Song W , Li S , Benediktsson J A . Deep Hashing Learning for Visual and Semantic Retrieval of Remote Sensing Images[J]. Institute of Electrical and Electronics Engineers (IEEE), 2021(11).

1. 背景

在遥感大数据管理迫切需求的驱动下,大规模遥感图像检索(RSIR)在遥感领域越来越受到重视。

一般来说,现有的检索方法可以看作是基于视觉的检索方法,给定查询图像并从数据库中搜索并返回一组相似的图像。

基于内容的图像检索通常由两部分组成:特征提取和相似性度量。

特征提取:

提取的特征可分为三种类型:低级(光谱特征、纹理特征、形状特征等)、中级(Fisher向量、局部聚集描述符向量等)和高级特征。低级和中级特征属于人工设计,需要专业的领域知识,且包含的信息量有限。

相比之下,深度学习技术强大的特征提取能力,能够提供不同层次的图像特征。

在过去的几年中,已经开发了许多功能强大的cnn,例如AlexNet、CaffeNet、GoogLeNet、VGG和ResNet等。实践证明,这些网络在自然图像数据集(即ImageNet)上训练的分类模型的前几层可作为其她它任务方向的特征提取层,能够减少对训练样本的需求以及加快网络的收敛。

相似性度量:

现有的大多数检索方法,包括基于人工设计特征的方法和基于深度特征的方法,都采用欧式距离或者余弦相似度来衡量特征向量间的相似程度。这种计算方式不适用于大规模的图像实时检索,而采用哈希方法可解决以上问题。哈希方法的目的是学习一组哈希函数,将高维图像特征编码到低维汉明空间中,每个图像用一个二进制哈希码表示。通过为所有图像生成一个哈希代码表,可以通过哈希查找或汉明排序轻松完成检索。

2. DHCNN

DHCNN的3个重要贡献点:
将传统的图像检索问题重新定义为图像的视觉和语义检索,目的是检索相似的图像,同时对其语义标签进行分类;
提出了一种快速、高效的深度哈希卷积神经网络。在该网络中,利用CNN提取深层特征,利用哈希层将连续值特征转化为离散值哈希码;
不同于现有的深度哈希方法只利用样本之间的相似信息,DHCNN精心设计了一个目标函数,该函数融合了每张图像的标签信息和图像对的相似信息,以增强特征的表示能力。

2.1 网络结构

在这里插入图片描述

2.2 主干网络

在这里插入图片描述
采用预训练的VGG-F模型进行深度特征提取。

2.3 哈希度量学习

采用基于哈希的度量学习方法,约束同类图像尽可能近距离编码,不同类图像在特征空间中间隔较远编码。
为此,使用成对输入来训练网络,使其探索图像之间的相似/不相似信息,并且在预训练的CNN之后插入一个哈希层将高维度的深度特征转化为K-bit哈希码,其转化公式如下:
b t = s g n ( u t ) , t = i , j b_t = sgn(u_t), t = i, j bt=sgn(ut),t=i,j (1)
其中, u t = W h f t + v h u_t = W_hf_t + v_h ut=Whft+vh是hash-like特征, W h ∈ R K × 4096 W_h ∈ R^K×4096 WhRK×4096表示权重矩阵, v h ∈ R K × 1 v_h ∈ R^{K×1} vhRK×1表示偏置向量,sgn是对矩阵或向量进行元素级别的操作(sgn(x) = 1 if x > 0 and −1 otherwise)。
所有样本的哈希码 B = { b t } t = 1 N B=\{b_t\}^N_{t=1} B={bt}t=1N的成对标签 S = { s i j } S = \{s_{ij}\} S={sij}的概率可被定义为:
在这里插入图片描述(2)
在这里插入图片描述为, ω i j = 1 2 b i T b j ω_{ij} =\frac{1}{2}b_i^T b_j ωij=21biTbj
根据上述定义,损失函数可以取S中观察到的成对标签的负对数似然。
在这里插入图片描述(3)
由于公式中的离散值,直接求解公式(3)非常困难,因此上述损失函数可以离散地重新表示为:
在这里插入图片描述 (4)
ψ i j = 1 2 u i T u j ψ_{ij} = \frac{1}{2}u_i^Tu_j ψij=21uiTuj,i, j = 1, 2, …, N,β是一个正则化参数,可以约束 u i u_i ui接近 b i b_i bi
通过最小化L2,使得相似样本之间的汉明距离尽可能小,不相似样本之间的汉明距离尽可能大。

2.4 总目标损失函数
DHCNN与现有的图像检索深度哈希方法仅利用图像之间的相似度信息学习哈希码不同,DHCNN还考虑了每张图像的语义标签信息来进一步提高特征表示能力。为此,在哈希层之后添加一个具有softmax函数的全连接层,用来生成每张图像的类分布,其公式如下:
在这里插入图片描述(5)

其中, W s ∈ R C × K W_s ∈ R^{C×K} WsRC×K v s ∈ R C × 1 v_s ∈R^{C×1} vsRC×1表示权重矩阵和偏置向量。

然后,采用交叉熵损失来最小化预测标签与真实标签之间的误差。
在这里插入图片描述(6)

其中,<>表示内积操作。通过最小化损失函数L3, CNN可以学习每个图像的语义特征。
如前所述,损失函数L2的目的是学习图像之间的相似度信息,L3的目的是学习每个图像的标签信息。因此,设计了一个新的损失函数,同时考虑相似度信息和标签信息,以提高网络性能。
在这里插入图片描述(7)

其中,η ∈ [0, 1]是一个用来平衡相似度信息和标签信息的正则参数。

3. 性能实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
"Deep Hashing for Compact Binary Codes Learning" 是一篇关于深度哈希学习的论文。该论文提出了一种用于学习紧凑二进制码的深度哈希算法。以下是该论文中深度哈希算法的公式推导过程: 1. 首先,给定一个训练集 $\{x_i\}_{i=1}^n$ 和它们的标签 $\{y_i\}_{i=1}^n$,其中 $x_i$ 是输入数据,$y_i$ 是输出标签。 2. 然后,利用神经网络学习一个将输入数据映射到二进制码的哈希函数 $h(x_i)$,其中 $h(x_i)$ 是一个 $k$ 位的二进制向量,$k$ 是哈希码的长度。 3. 在深度哈希学习中,我们使用多个哈希函数来生成多个二进制码。因此,我们学习 $m$ 个哈希函数,每个哈希函数对应一个二进制码 $B_j$。 4. 对于每个输入数据 $x_i$,我们得到 $m$ 个哈希码 $B_j^i$,其中 $j=1,2,...,m$。 5. 然后,我们将这些哈希码组合成一个紧凑的二进制码 $b_i$,即 $b_i = [B_1^i, B_2^i, ..., B_m^i]$。 6. 确定损失函数,使得学习到的二进制码可以最大程度地保留数据之间的相似度。 7. 定义损失函数 $L$,其中 $L$ 由两部分组成:量化损失和分类损失。 8. 量化损失用于衡量哈希码的质量,分类损失用于保留数据之间的相似度。 9. 量化损失可以表示为:$L_{quan} = \sum_{i=1}^n\sum_{j=1}^m\frac{1}{2}(B_j^i - h_j(x_i))^2$,其中 $h_j(x_i)$ 是第 $j$ 个哈希函数的输出。 10. 分类损失可以表示为:$L_{cls} = -\sum_{i=1}^n\sum_{j=1}^n w_{ij}y_iy_j\log\sigma(b_i^Tb_j)$,其中 $w_{ij}$ 是样本 $i$ 和 $j$ 之间的相似度权重,$\sigma$ 是 sigmoid 函数。 11. 最终的损失函数可以表示为:$L = \lambda L_{quan} + L_{cls}$,其中 $\lambda$ 是量化损失的权重。 12. 在训练过程中,我们使用反向传播算法来优化损失函数,学习到最优的哈希函数和二进制码。 这就是 "Deep Hashing for Compact Binary Codes Learning" 论文中深度哈希算法的公式推导过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值