语义图像检索

快乐读博

已于 2024-05-18 12:05:48 修改

阅读量558

点赞数 28

分类专栏：无人机视觉定位文章标签：数据库

于 2024-05-18 12:04:54 首次发布

本文链接：https://blog.csdn.net/weixin_63778889/article/details/139017301

版权

无人机视觉定位专栏收录该内容

6 篇文章 1 订阅

订阅专栏

文章：http://arxiv.org/pdf/1712.05773v2.pdf https://thescipub.com/pdf/jcssp.2020.56.71.pdf http://arxiv.org/pdf/1712.05773v2.pdf

代码：暂无

题目：基于概念共现和Deeplab分割的语义图像检索技术

作者：R. Jayadevan and V.S. Sheeba（印度的学者）

摘要：本文从用户视角出发进行语义图像的检索。主要运用deeeplabv3来对图像进行语义分割，保证图像纹理的多样性，同时提出了基于概念共现和概念之间距离的高效数据库组织方法（检索策略的核心）。并在两个数据集（PASCALVOC2012 and SUN '09 datasets）进行了实验，验证了本文方法的有效性。

关键字：

Semantic Segmentation（语义分割）

Concept Co-occurrence（概念共现：数据中不同概念同时出现的频率）

Intra-concept Variation（概念内部变异：同一概念内部存在的多样性和差异性。比如：马分为：黑马、白马、斑马等）

Database Organization（数据库组织）

Contextual Diversity（语境多样性：一个概念在不同语境出现的频率：高语境多样性的事物在多种不同场景中出现，低语境多样性只在特定或者有限的场景中出现）

Set Formation（集合形成）

Subset Formation（子集形成）

引言：图像检索由于其在各个领域的突出贡献，使得其应用范围越来越广泛。当前由于数字图像的不可预测和爆炸式增长，一个高效的图像数据库管理系统和索引程序是必要的。图像检索的实力证明，为检索系统提供一个近似输入图像是重要的，他将对用户满意度和兴趣产生重大影响。

图像检索领域最开始采用基于本文查询输入，后面发现这对于大型图像数据库不切实际。后来为适应需求，基于内容的图像检索技术（CBIR）被提出，他们专注于图像本身的颜色、纹理或者形状特征，这种方法在20世纪变得尤为突出。与早期的CBIR系统（这些只关注图像的低水平特征）不同，近几十年的方法开始注意到图像语义概念等高水平特征。语义信息的介入导致了图像检索领域近20年的突出贡献。为了将查询过程定位到输入图像的特定区域，多种不同的图像分割算法被用来分割提取图像的ROI（感兴趣）区域。还有些方法可以采用用户对中间检索结果的在线反馈来修改图像的检索过程。

深度学习有助于减少图像检索过程中查询图和参考图的语义差距，CNN高级特征是图像检索领域的一项突破。然而，当一幅图像包含多种语义信息或者某一语义概念发生大小、形状、位置、视角等改变时，这些方法可能会失败。

文献综述：

翻译：

表1：文献中主要检索方法的详细信息

序号	相关检索方法	优势	不足
1	使用JSEG和Blobworld进行检索	● 提供ROI作为查询，而不是直接从整个图像中提取	● 当图像包含多个语义时，未能精确地捕获ROI的分割
2	基于用户的反馈（RF）	● 有助于基于用户兴趣的中间检索结果的细化	● 这些低级分割技术可能导致过度或不足的分割
3	基于查询为每个用户生成导航模式	● 初始检索结果符合用户的兴趣	● 没有解决特定用户上下文多样性的问题
4	交互式捕获ROI以适应用户兴趣的上下文多样性	● 有效地捕获ROI，包括多个语义	● 边界框内除所需概念外的噪声信息可能导致不相关的检索
5	利用概念共现性	● 促进概念对之间信息的有效组织	● 在处理包含超过两个概念的图像检索任务时效率较低
6	使用CNN特征进行ROI表示	● 为ROI提供准确且高级别的语义表示	● 未能融入图像中至关重要的概念内变化（IV），这在高精度图像检索问题中很重要

作者调研了从2000年到2017年的图像检索，并发现了以下缺点尚且解决：

1. 需要准确和自动化的ROI提取步骤来适应用户的上下文多样性

2.缺乏有效的数据库组织形式处理涉及两个以上语义概念的检索

3.检索方法无法对图像内同一概念的变化进行明确描述

针对以上存在的问题，作者逐一进行了解决：

1.一个方便用户输入语义上有意义的ROI查询平台

2.将概念共现扩展到更高层次，实现数据库的高效组织和多重语义检索

3.对图像检索融入概念内变化，以满足查询视角。

方法论：

我们的方法包含多个步骤：使用高级语义分割进行ROI区域的提取，使用CNN描述符进行ROI的表示，高效的数据库组织形式，查询区域中的概念（节点）和子节点，使用CBIR检测子节点的排名。方法总览如图1所示：

检索过程：提取输入的ROI区域的resnet101的cnn特征，该描述符经过分类器识别概念节点，然后返回初始的概念集，这些概念集会出现在查询区域当中，然后用户通过在线交互修改初始返回的概念列表。修改涉及基于共现频率选择所需的概念并添加新概念。ROI（感兴趣区域）提取和用户交互步骤要求以可靠的方式结合用户的上下文多样性。在识别出合适的概念组合节点后，会检测适当的子节点以捕获IV（信息值）。最后，使用CBIR（基于内容的图像检索）根据相似度对检测到的子节点所属的图像进行排序，以形成检索结果，流程如图2所示。

1.图像语义分割

我们的方法，需要对高级语义图像进行分割，以实现准确且有意义的ROI（感兴趣区域）提取。采用的分割技术是DeepLab-V3+，它是DeepLab（一种语义分割技术）的最新变体。DeepLab通过使用深度卷积神经网络（DCNN）有效地完成语义分割任务。为了在多个尺度上稳健地分割ROI并获得具有高空间分辨率的特征图，对原始的DCNN结构进行了修改。这种修改通过引入空洞卷积和空洞空间金字塔池化（Chen等人，2017年）实现。此外，基本的DCNN形式在分割过程中准确定位ROI边界方面存在局限性。DeepLab通过在最终的DCNN层响应中包含一个全连接条件随机场（CRF）来进行图像分割。DeepLab-V3在DeepLab的基础上增加了多个atrous rates的并行或级联atrous卷积模块，以及现有的atrous空间金字塔池化模块。DeepLab-V3+是DeepLab-V3的扩展版本，它在DeepLab-V3的基础上增加了一个有效的解码模块。这有助于精确地恢复物体边界，从而提高分割质量。图3显示了语义分割的效果。

后面的数学公式较为繁琐，而且本人发现这篇论文更像是一个说明书，或许实用，但是采用的方法有点古老，不打算深入了。对于发小论文几乎没有可以借鉴的地方，加上没有开源代码，可参考性不大，this is invilid。

快乐读博

关注

28
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
语义图像检索

检索过程：提取输入的ROI区域的resnet101的cnn特征，该描述符经过分类器识别概念节点，然后返回初始的概念集，这些概念集会出现在查询区域当中，然后用户通过在线交互修改初始返回的概念列表。最后，使用CBIR（基于内容的图像检索）根据相似度对检测到的子节点所属的图像进行排序，以形成检索结果，流程如图2所示。我们的方法包含多个步骤：使用高级语义分割进行ROI区域的提取，使用CNN描述符进行ROI的表示，高效的数据库组织形式，查询区域中的概念（节点）和子节点，使用CBIR检测子节点的排名。
复制链接

扫一扫