语义图像检索

文章http://arxiv.org/pdf/1712.05773v2.pdfhttps://thescipub.com/pdf/jcssp.2020.56.71.pdfhttp://arxiv.org/pdf/1712.05773v2.pdf

代码:暂无

题目:基于概念共现和Deeplab分割的语义图像检索技术

作者:R. Jayadevan and V.S. Sheeba(印度的学者)

摘要:本文从用户视角出发进行语义图像的检索。主要运用deeeplabv3来对图像进行语义分割,保证图像纹理的多样性,同时提出了基于概念共现和概念之间距离的高效数据库组织方法(检索策略的核心)。并在两个数据集(PASCALVOC2012 and SUN '09 datasets)进行了实验,验证了本文方法的有效性。

关键字

        Semantic Segmentation(语义分割)

         Concept Co-occurrence(概念共现:数据中不同概念同时出现的频率)

         Intra-concept Variation(概念内部变异:同一概念内部存在的多样性和差异性。比如:马分为:黑马、白马、斑马等)

        Database Organization(数据库组织)

        Contextual Diversity(语境多样性:一个概念在不同语境出现的频率:高语境多样性的事物在多种不同场景中出现,低语境多样性只在特定或者有限的场景中出现)

        Set Formation(集合形成)

        Subset Formation(子集形成)

引言:图像检索由于其在各个领域的突出贡献,使得其应用范围越来越广泛。当前由于数字图像的不可预测和爆炸式增长,一个高效的图像数据库管理系统和索引程序是必要的。图像检索的实力证明,为检索系统提供一个近似输入图像是重要的,他将对用户满意度和兴趣产生重大影响。

        图像检索领域最开始采用基于本文查询输入,后面发现这对于大型图像数据库不切实际。后来为适应需求,基于内容的图像检索技术(CBIR)被提出,他们专注于图像本身的颜色、纹理或者形状特征,这种方法在20世纪变得尤为突出。与早期的CBIR系统(这些只关注图像的低水平特征)不同,近几十年的方法开始注意到图像语义概念等高水平特征。语义信息的介入导致了图像检索领域近20年的突出贡献。为了将查询过程定位到输入图像的特定区域,多种不同的图像分割算法被用来分割提取图像的ROI(感兴趣)区域。还有些方法可以采用用户对中间检索结果 的在线反馈来修改图像的检索过程。

        深度学习有助于减少图像检索过程中查询图和参考图的语义差距,CNN高级特征是图像检索领域的一项突破。然而,当一幅图像包含多种语义信息或者某一语义概念发生大小、形状、位置、视角等改变时,这些方法可能会失败。

文献综述:   

翻译

表1:文献中主要检索方法的详细信息

序号相关检索方法优势不足
1使用JSEG和Blobworld进行检索● 提供ROI作为查询,而不是直接从整个图像中提取● 当图像包含多个语义时,未能精确地捕获ROI的分割
2基于用户的反馈(RF)● 有助于基于用户兴趣的中间检索结果的细化● 这些低级分割技术可能导致过度或不足的分割
3基于查询为每个用户生成导航模式● 初始检索结果符合用户的兴趣● 没有解决特定用户上下文多样性的问题
4交互式捕获ROI以适应用户兴趣的上下文多样性● 有效地捕获ROI,包括多个语义● 边界框内除所需概念外的噪声信息可能导致不相关的检索
5利用概念共现性● 促进概念对之间信息的有效组织● 在处理包含超过两个概念的图像检索任务时效率较低
6使用CNN特征进行ROI表示● 为ROI提供准确且高级别的语义表示● 未能融入图像中至关重要的概念内变化(IV),这在高精度图像检索问题中很重要

作者调研了从2000年到2017年的图像检索,并发现了以下缺点尚且解决:

        1. 需要准确和自动化的ROI提取步骤来适应用户的上下文多样性

        2.缺乏有效的数据库组织形式处理涉及两个以上语义概念的检索

        3.检索方法无法对图像内同一概念的变化进行明确描述

针对以上存在的问题,作者逐一进行了解决:

        1.一个方便用户输入语义上有意义的ROI查询平台

        2.将概念共现扩展到更高层次,实现数据库的高效组织和多重语义检索

        3.对图像检索融入概念内变化,以满足查询视角。

方法论

        我们的方法包含多个步骤:使用高级语义分割进行ROI区域的提取,使用CNN描述符进行ROI的表示,高效的数据库组织形式,查询区域中的概念(节点)和子节点,使用CBIR检测子节点的排名。方法总览如图1所示: 

        检索过程:提取输入的ROI区域的resnet101的cnn特征,该描述符经过分类器识别概念节点,然后返回初始的概念集,这些概念集会出现在查询区域当中,然后用户通过在线交互修改初始返回的概念列表。修改涉及基于共现频率选择所需的概念并添加新概念。ROI(感兴趣区域)提取和用户交互步骤要求以可靠的方式结合用户的上下文多样性。在识别出合适的概念组合节点后,会检测适当的子节点以捕获IV(信息值)。最后,使用CBIR(基于内容的图像检索)根据相似度对检测到的子节点所属的图像进行排序,以形成检索结果,流程如图2所示。

        1.图像语义分割

        我们的方法,需要对高级语义图像进行分割,以实现准确且有意义的ROI(感兴趣区域)提取。采用的分割技术是DeepLab-V3+,它是DeepLab(一种语义分割技术)的最新变体。DeepLab通过使用深度卷积神经网络(DCNN)有效地完成语义分割任务。为了在多个尺度上稳健地分割ROI并获得具有高空间分辨率的特征图,对原始的DCNN结构进行了修改。这种修改通过引入空洞卷积和空洞空间金字塔池化(Chen等人,2017年)实现。此外,基本的DCNN形式在分割过程中准确定位ROI边界方面存在局限性。DeepLab通过在最终的DCNN层响应中包含一个全连接条件随机场(CRF)来进行图像分割。DeepLab-V3在DeepLab的基础上增加了多个atrous rates的并行或级联atrous卷积模块,以及现有的atrous空间金字塔池化模块。DeepLab-V3+是DeepLab-V3的扩展版本,它在DeepLab-V3的基础上增加了一个有效的解码模块。这有助于精确地恢复物体边界,从而提高分割质量。图3显示了语义分割的效果。

后面的数学公式较为繁琐,而且本人发现这篇论文更像是一个说明书,或许实用,但是采用的方法有点古老,不打算深入了。对于发小论文几乎没有可以借鉴的地方,加上没有开源代码,可参考性不大,this is invilid。

  • 28
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值