文章:http://arxiv.org/pdf/1712.05773v2.pdfhttps://thescipub.com/pdf/jcssp.2020.56.71.pdfhttp://arxiv.org/pdf/1712.05773v2.pdf
代码:暂无
题目:基于概念共现和Deeplab分割的语义图像检索技术
作者:R. Jayadevan and V.S. Sheeba(印度的学者)
摘要:本文从用户视角出发进行语义图像的检索。主要运用deeeplabv3来对图像进行语义分割,保证图像纹理的多样性,同时提出了基于概念共现和概念之间距离的高效数据库组织方法(检索策略的核心)。并在两个数据集(PASCALVOC2012 and SUN '09 datasets)进行了实验,验证了本文方法的有效性。
关键字:
Semantic Segmentation(语义分割)
Concept Co-occurrence(概念共现:数据中不同概念同时出现的频率)
Intra-concept Variation(概念内部变异:同一概念内部存在的多样性和差异性。比如:马分为:黑马、白马、斑马等)
Database Organization(数据库组织)
Contextual Diversity(语境多样性:一个概念在不同语境出现的频率:高语境多样性的事物在多种不同场景中出现,低语境多样性只在特定或者有限的场景中出现)
Set Formation(集合形成)
Subset Formation(子集形成)
引言:图像检索由于其在各个领域的突出贡献,使得其应用范围越来越广泛。当前由于数字图像的不可预测和爆炸式增长,一个高效的图像数据库管理系统和索引程序是必要的。图像检索的实力证明,为检索系统提供一个近似输入图像是重要的,他将对用户满意度和兴趣产生重大影响。
图像检索领域最开始采用基于本文查询输入,后面发现这对于大型图像数据库不切实际。后来为适应需求,基于内容的图像检索技术(CBIR)被提出,他们专注于图像本身的颜色、纹理或者形状特征,这种方法在20世纪变得尤为突出。与早期的CBIR系统(这些只关注图像的低水平特征)不同,近几十年的方法开始注意到图像语义概念等高水平特征。语义信息的介入导致了图像检索领域近20年的突出贡献。为了将查询过程定位到输入图像的特定区域,多种不同的图像分割算法被用来分割提取图像的ROI(感兴趣)区域。还有些方法可以采用用户对中间检索结果 的在线反馈来修改图像的检索过程。
深度学习有助于减少图像检索过程中查询图和参考图的语义差距,CNN高级特征是图像检索领域的一项突破。然而,当一幅图像包含多种语义信息或者某一语义概念发生大小、形状、位置、视角等改变时,这些方法可能会失败。
文献综述:
翻译:
表1:文献中主要检索方法的详细信息
序号 | 相关检索方法 | 优势 | 不足 |
---|---|---|---|
1 | 使用JSEG和Blobworld进行检索 | ● 提供ROI作为查询,而不是直接从整个图像中提取 | ● 当图像包含多个语义时,未能精确地捕获ROI的分割 |
2 | 基于用户的反馈(RF) | ● 有助于基于用户兴趣的中间检索结果的细化 | ● 这些低级分割技术可能导致过度或不足的分割 |
3 | 基于查询为每个用户生成导航模式 | ● 初始检索结果符合用户的兴趣 | ● 没有解决特定用户上下文多样性的问题 |
4 | 交互式捕获ROI以适应用户兴趣的上下文多样性 | ● 有效地捕获ROI,包括多个语义 | ● 边界框内除所需概念外的噪声信息可能导致不相关的检索 |
5 | 利用概念共现性 | ● 促进概念对之间信息的有效组织 | ● 在处理包含超过两个概念的图像检索任务时效率较低 |
6 | 使用CNN特征进行ROI表示 | ● 为ROI提供准确且高级别的语义表示 | ● 未能融入图像中至关重要的概念内变化(IV),这在高精度图像检索问题中很重要 |
作者调研了从2000年到2017年的图像检索,并发现了以下缺点尚且解决:
1. 需要准确和自动化的ROI提取步骤来适应用户的上下文多样性
2.缺乏有效的数据库组织形式处理涉及两个以上语义概念的检索
3.检索方法无法对图像内同一概念的变化进行明确描述
针对以上存在的问题,作者逐一进行了解决:
1.一个方便用户输入语义上有意义的ROI查询平台
2.将概念共现扩展到更高层次,实现数据库的高效组织和多重语义检索
3.对图像检索融入概念内变化,以满足查询视角。
方法论:
我们的方法包含多个步骤:使用高级语义分割进行ROI区域的提取,使用CNN描述符进行ROI的表示,高效的数据库组织形式,查询区域中的概念(节点)和子节点,使用CBIR检测子节点的排名。方法总览如图1所示:
检索过程:提取输入的ROI区域的resnet101的cnn特征,该描述符经过分类器识别概念节点,然后返回初始的概念集,这些概念集会出现在查询区域当中,然后用户通过在线交互修改初始返回的概念列表。修改涉及基于共现频率选择所需的概念并添加新概念。ROI(感兴趣区域)提取和用户交互步骤要求以可靠的方式结合用户的上下文多样性。在识别出合适的概念组合节点后,会检测适当的子节点以捕获IV(信息值)。最后,使用CBIR(基于内容的图像检索)根据相似度对检测到的子节点所属的图像进行排序,以形成检索结果,流程如图2所示。
1.图像语义分割
我们的方法,需要对高级语义图像进行分割,以实现准确且有意义的ROI(感兴趣区域)提取。采用的分割技术是DeepLab-V3+,它是DeepLab(一种语义分割技术)的最新变体。DeepLab通过使用深度卷积神经网络(DCNN)有效地完成语义分割任务。为了在多个尺度上稳健地分割ROI并获得具有高空间分辨率的特征图,对原始的DCNN结构进行了修改。这种修改通过引入空洞卷积和空洞空间金字塔池化(Chen等人,2017年)实现。此外,基本的DCNN形式在分割过程中准确定位ROI边界方面存在局限性。DeepLab通过在最终的DCNN层响应中包含一个全连接条件随机场(CRF)来进行图像分割。DeepLab-V3在DeepLab的基础上增加了多个atrous rates的并行或级联atrous卷积模块,以及现有的atrous空间金字塔池化模块。DeepLab-V3+是DeepLab-V3的扩展版本,它在DeepLab-V3的基础上增加了一个有效的解码模块。这有助于精确地恢复物体边界,从而提高分割质量。图3显示了语义分割的效果。
后面的数学公式较为繁琐,而且本人发现这篇论文更像是一个说明书,或许实用,但是采用的方法有点古老,不打算深入了。对于发小论文几乎没有可以借鉴的地方,加上没有开源代码,可参考性不大,this is invilid。