1. 背景
在遥感大数据管理迫切需求的驱动下,大规模遥感图像检索(RSIR)在遥感领域越来越受到重视。
一般来说,现有的检索方法可以看作是基于视觉的检索方法,给定查询图像并从数据库中搜索并返回一组相似的图像。
基于内容的图像检索通常由两部分组成:特征提取和相似性度量。
特征提取:
提取的特征可分为三种类型:低级(光谱特征、纹理特征、形状特征等)、中级(Fisher向量、局部聚集描述符向量等)和高级特征。低级和中级特征属于人工设计,需要专业的领域知识,且包含的信息量有限。
相比之下,深度学习技术强大的特征提取能力,能够提供不同层次的图像特征。
在过去的几年中,已经开发了许多功能强大的cnn,例如AlexNet、CaffeNet、GoogLeNet、VGG和ResNet等。实践证明,这些网络在自然图像数据集(即ImageNet)上训练的分类模型的前几层可作为其她它任务方向的特征提取层,能够减少对训练样本的需求以及加快网络的收敛。
相似性度量:
现有的大多数检索方法,包括基于人工设计特征的方法和基于深度特征的方法,都采用欧式距离或者余弦相似度来衡量特征向量间的相似程度。这种计算方式不适用于大规模的图像实时检索,而采用哈希方法可解决以上问题。哈希方法的目的是学习一组哈希函数,将高维图像特征编码到低维汉明空间中,每个图像用一个二进制哈希码表示。通过为所有图像生成一个哈希代码表,可以通过哈希查找或汉明排序轻松完成检索。
2. DHCNN
DHCNN的3个重要贡献点:
将传统的图像检索问题重新定义为图像的视觉和语义检索,目的是检索相似的图像,同时对其语义标签进行分类;
提出了一种快速、高效的深度哈希卷积神经网络。在该网络中,利用CNN提取深层特征,利用哈希层将连续值特征转化为离散值哈希码;
不同于现有的深度哈希方法只利用样本之间的相似信息,DHCNN精心设计了一个目标函数,该函数融合了每张图像的标签信息和图像对的相似信息,以增强特征的表示能力。
2.1 网络结构
2.2 主干网络
采用预训练的VGG-F模型进行深度特征提取。
2.3 哈希度量学习
采用基于哈希的度量学习方法,约束同类图像尽可能近距离编码,不同类图像在特征空间中间隔较远编码。
为此,使用成对输入来训练网络,使其探索图像之间的相似/不相似信息,并且在预训练的CNN之后插入一个哈希层将高维度的深度特征转化为K-bit哈希码,其转化公式如下:
b
t
=
s
g
n
(
u
t
)
,
t
=
i
,
j
b_t = sgn(u_t), t = i, j
bt=sgn(ut),t=i,j (1)
其中,
u
t
=
W
h
f
t
+
v
h
u_t = W_hf_t + v_h
ut=Whft+vh是hash-like特征,
W
h
∈
R
K
×
4096
W_h ∈ R^K×4096
Wh∈RK×4096表示权重矩阵,
v
h
∈
R
K
×
1
v_h ∈ R^{K×1}
vh∈RK×1表示偏置向量,sgn是对矩阵或向量进行元素级别的操作(sgn(x) = 1 if x > 0 and −1 otherwise)。
所有样本的哈希码
B
=
{
b
t
}
t
=
1
N
B=\{b_t\}^N_{t=1}
B={bt}t=1N的成对标签
S
=
{
s
i
j
}
S = \{s_{ij}\}
S={sij}的概率可被定义为:
(2)
为,
ω
i
j
=
1
2
b
i
T
b
j
ω_{ij} =\frac{1}{2}b_i^T b_j
ωij=21biTbj。
根据上述定义,损失函数可以取S中观察到的成对标签的负对数似然。
(3)
由于公式中的离散值,直接求解公式(3)非常困难,因此上述损失函数可以离散地重新表示为:
(4)
ψ
i
j
=
1
2
u
i
T
u
j
ψ_{ij} = \frac{1}{2}u_i^Tu_j
ψij=21uiTuj,i, j = 1, 2, …, N,β是一个正则化参数,可以约束
u
i
u_i
ui接近
b
i
b_i
bi。
通过最小化L2,使得相似样本之间的汉明距离尽可能小,不相似样本之间的汉明距离尽可能大。
2.4 总目标损失函数
DHCNN与现有的图像检索深度哈希方法仅利用图像之间的相似度信息学习哈希码不同,DHCNN还考虑了每张图像的语义标签信息来进一步提高特征表示能力。为此,在哈希层之后添加一个具有softmax函数的全连接层,用来生成每张图像的类分布,其公式如下:
(5)
其中, W s ∈ R C × K W_s ∈ R^{C×K} Ws∈RC×K 与 v s ∈ R C × 1 v_s ∈R^{C×1} vs∈RC×1表示权重矩阵和偏置向量。
然后,采用交叉熵损失来最小化预测标签与真实标签之间的误差。
(6)
其中,<>表示内积操作。通过最小化损失函数L3, CNN可以学习每个图像的语义特征。
如前所述,损失函数L2的目的是学习图像之间的相似度信息,L3的目的是学习每个图像的标签信息。因此,设计了一个新的损失函数,同时考虑相似度信息和标签信息,以提高网络性能。
(7)
其中,η ∈ [0, 1]是一个用来平衡相似度信息和标签信息的正则参数。
3. 性能实验