Salient object detection: A survey笔记(持续更新)

Salient object detection: A survey笔记

注:基于本文我写了数字图像处理与工程应用的大作业,希望老师查重查到本帖的时候不要误解😂

本文中加 ???部分的是我暂时还不太懂的地方,欢迎大家一起交流学习

具有内在线索的基于块(block)的模型

唯一性:以像素为单位的中心环绕对比度计算

  1. Hu:
    特点:无参数
    1. 使用其特征的极变换在2D空间中表示输入图像
    2. 将图像中的每个区域映射到一维线性子空间
    3. 广义主成分分析(GPCA)196来估计线性子空间
    4. 测量区域的特征对比度和几何属性来选择显著区域
  2. Valenti:
    基于等光线的框架:曲线度、颜色提升和等中心聚类计算的显著图
  3. Achanta:采用调频方法计算全分辨率显著图
  4. 将对比分析扩展到补丁(patch)级别(即,将补丁与其周围进行比较):
    1. Klein和Frtrop:
      信息论方法:利用强度、颜色和方向等特征分布之间的Kullback-Leibler散度来计算中心环绕对比度
    2. Li:将中心-周围对比度表示为对成本敏感的最大边距分类问题
      基于训练的代价敏感支持向量机(SVM),根据中心补丁与周围补丁的可分离性来确定中心补丁的显著性。
  5. 将补丁的唯一性定义为它与其他补丁的全局对比:如果一个补丁与其最相似的补丁明显不同,那么它就被认为是显著的
    1. Margolinet:通过测量斑块(patch)到平均斑块的距离来定义斑块的唯一性
    2. Borji和Itt:计算了RGB和LAB颜色空间中的局部和全局斑块稀有度
  6. 缺点:
    1. 高对比度边缘通常比显著对象突出
    2. 显著对象的边界没有得到很好的保护(特别是在使用大块时)。

具有内在线索的基于区域的模型

  • 优点:
    1. 区域的数量远远少于块的数量,快速
    2. 可以从区域中提取更多的信息特征,从而获得更好的性能
  • 特点:
    1. 在基于图形的分割、均值漂移、SLIC或Turbopixels等方法生成的图像区域中提取的内在线索
    2. 先将输入图像分割成与亮度边缘对齐的区域,然后再计算区域显著图。
  • 方法:通过测量目标区域相对于所有其他图像区域之间的全局对比度:
    • 捕捉两个区域之间的外观对比度,较高的显著性得分被分配给具有较大全局对比度的区域。
    • 计算区域对比度:颜色、纹理、结构(block没有这些特征) - Margolin:软抽象方法:利用直方图量化和高斯混合模型(GMM)生成一组大规模的感知上均匀的区域**???**
    • JIiang:基于多尺度局部区域对比度:计算多个分割的显著值(鲁棒性),并将这些区域显著值组合以获得像素级的显著图(多层次分割)
    • 显著对象还可以被定义为特定特征空间中的稀疏噪声**???**
      • 输入图像表示为低秩矩阵,背景可以用低秩矩阵来解释,而显著区域可以用稀疏噪声来表示
      • (自上而下)基于学习的特征来检测显著对象:中心优先、人脸优先和颜色优先
      • (自下而上)分段:引入了树形结构的稀疏诱导范数正则化来分层描述图像结构**???**
      • 先验知识(优势之一):
        • 越宽的颜色分布在图像中,显著对象包含此颜色的可能性越小
        • 中心优先假设
        • 背景先验:以伪背景为参考,区域显著性可以计算为区域与“背景”的对比度
        • 边界连通性先验/分割先验:
          • 与背景中的对象相比,显著对象与图像边界的连接要少得多
          • 区域的边界连通性分数可以根据其沿图像边界的长度与该区域的跨越面积之间的比率来估计
        • 焦点先验:
          • 突出的对象通常被拍摄在焦点中
          • 根据焦点模糊程度计算聚焦度
      • 基于吸收马尔可夫链的显著性检测方法**???**
      • 利用对象建议来促进显著对象检测:将区域目标度定义为其包含像素的平均目标值
      • 消除分割参数影响**???**
      • 贝叶斯框架:给定输入图像I的情况下估计像素x是前景的后验概率
        1. 首先在检测到的兴趣点周围估计凸包H
        2. 将图像I分成内部区域RI和外部区域RO的凸包H提供了粗略的前景和背景的估计
        3. 学习显著种子
        4. 从背景区域以及人类先验知识中学习引导图,模拟种子向其他区域的扩散生成显著图
  • 区域的选择:
    • 不考虑区域大小:基于图形的分割算法、均值漂移算法**???**、聚类
    • 考虑区域大小:大小相当的紧凑区域作为区域
    • 提高鲁棒性:
      • 软区域:其中每个像素保持属于所有区域(分量)中的每一个的概率
      • 基于多个分割、分层

具有外在线索(extrinsic cues)的模型

外在线索:训练图像、相似图像、视频序列、包含共同显著对象的一组输入图像、深度图或光场图

  • 相似图像的显著目标检测:
    • 给定输入图像I,首先从大量图像C中检索K个相似图像Ci
    • 已有显著性注释(打好label):
      • Marchesotti:过一对描述符(f+Ik,f−Ik)来描述每个索引图像???
      • 基于不同特征对显著性分析的贡献不同,学习图像特定权重,融合在不同特征通道上计算的显著图(CRF聚合模型)
    • 利用未注释的相似图像:
      • 依据:相似的图像的背景区域能良好近似,而显著区域不能很好近似
      • 如果一个block从(相似图片)U(待测图片)采样的概率较低,则认为该block是显著的
  • 共显著目标检测:
    • 不是在单个图像上计算显著性,输入是一组图像,目标是多个输入图像中共有的共同显著对象
    • 与“图像共同分割”的区别:共显著检测必须检测显著对象,共分割可以分割出相似但不显著的背景对象
    • 方法:
      • Li和Ngan:共显着性定义为图像间的对应关系**???**
      • Chang:利用跨多个图像的重复性属性来计算共显著性
        • 像素的共显性分数:传统显著性分数的乘积,及其在输入图像上的重复性似然???
      • Fu:基于聚类

其他经典模型

  • 局部定位模式(Localization models)
    • 通过边界框直接分割:最终输出是围绕显著对象的一组矩形
    • 将移动窗口的显著性定义为其合成成本**???**
  • 显著对象存在性:在输入图像中不一定存在显著对象
    • Wang:通过在多个通道中提取的一组特征来描述每个图像
      • 显著对象的存在性:二进制分类问题
      • 定位:使用训练样本上的随机森林回归器来学习回归函数**???**,直接输出显著对象的位置
  • 分割模型:
    图形-背景问题本质上是一个试图将显著物体从背景中分离出来的二进制分类问题。
    利用由不同的(基于对比度的)显著性模型生成的不完美显著图的互补特性
    1. 首先为每个图像生成两个互补的显著图
      • 草图状地图(sketch-like map):精确定位最显著对象的部分(高精度)
      • 包络状地图(envelope-like map):大致覆盖整个显著对象(即召回率高)
    2. 检测出可靠的前景和背景区域,以训练像素分类器
    3. 再使用该分类器对所有其他像素进行分类
  • 凹凸性先验:假设曲线边界的凸侧上的区域倾向于属于前景(无向权重图、归一化剪切算法**???**)
  • 自动上下文(contextual)模型:针对每个像素及其周围环境的多层增强分类器(分层学习,后续层构建在前一层的分类基础上)
  • 监督模型与非监督模型的对比
    • 基于学习的显著性检测工作大多是监督模型:
      1. 输入图像中的每个元素(例如,像素或区域)由特征向量表示
      2. 学习线性或非线性映射函数f,将特征向量映射到显著性分数上**???**
        • f线性:条件随机场(CRF)模型、大边际框架(large-margin framework)???
        • 线性支持向量机(SVM)的混合、增强型决策树、随机森林(RF)
      • 有监督的方法允许对元素进行更丰富的表示,可以使用更多的特征(局部多尺度对比度、区域中心-周围距离和全局颜色空间分布…)
      • 更丰富的表示导致具有更高维度的特征向量(性能更好)
    • 非监督模型:
      • 抽样问题:每个图像块的显著程度与其来自所有块的采样概率成正比(所有块从输入图像和从未标记图像库中检索到的相似图像中提取)
  • 聚合和优化模型(数学推导**???**)
  • 优化:
    • 二次规划来优化每个超像素的显著度值(数学推导**???**)
    • 贝叶斯框架更有效地整合密集重建误差和稀疏重建误差**???**
  • 主动模型(Active models):
    • 将两个阶段分开,利用注视预测和分割模型的优点进行主动分割
      1. 检测最显著的对象
      2. 分割
    • 方法:
      • Mishra:
        1. 组合多个提示(例如,颜色、强度、纹理、运动)以预测注视
        2. 分割注视点周围的显著对象的“最佳”闭合轮廓
      • Borji:首先粗略地定位注视图(注视预测模型)的峰值处的显著对象,然后使用超像素分割对象
    • 视频上的显著对象检测
      • 除了空间信息之外,视频序列还提供时间线索
      • 方法:
        • 估计两个连续帧之间的关键点对应关系(运动对比度)
        • 将空间显著特征扩展到由光流算法产生的运动场
        • 将基于区域对比度的显著性扩展到时空域:在时域中,通过计算区域与周围区域的局部对比度来确定区域的显着性。
    • 具有深度的显著目标检测:利用深度线索
    • 光场上的显著目标检测,以上两点需要特殊的摄像设备拍摄

深度学习方法

卷积神经网络(CNNs):

  • 多层次和多尺度:不使用任何先验知识的情况下准确地捕获最显著的区域、更好地定位检测到的显著区域的边界(存在阴影或反射)
  • 强大的特征学习能力:从海量数据中学习显著性表示
  • 两类:
    1. 使用多层感知器(MLP)/基于卷积网络的经典方法
      1. 输入图像通常被高度分割成单尺度或多尺度的小区域
      2. 使用CNN来提取高层特征(CNN特征中的空间信息不能被保留)
      3. 将这些特征反馈到MLP来确定小区域的显著值
    2. 完全卷积网络”(基于FCN)模型,保留空间信息

基于CCN的模型(经典)

一般:分割图像成若干小区域(区域块通常被调整到固定大小),分别提取特征,然后被输入到用于确定每个块的显著性的分类网络。

  • Wang:考虑局部和全局信息
    1. 深度神经网络(DNN-L)学习局部面片特征以确定每个像素的显著性值
    2. 训练另一个深度神经网络(DNN-G):使用各种全局对比度特征来预测每个显著区域的显著值
    3. 将前K个候选区域加权计算最终的显著图
  • 多上下文深度学习框架:同时考虑局部上下文和全局上下文** ??? **
  • Lee:利用两个子网分别对低级和高级特征进行编码
    1. 首先提取每个超像素的若干特征并输入到由1×1核大小的卷积层堆栈组成的子网络中
    2. 使用标准的VGGNet来捕获高级特征** ??? **
    3. 低-和高层次特征输入到一个两层的MLP中判断每个查询区域的显著性
  • 基于边界框的方法:计算每个基本特征类型的局部区域对比度和边界区域对比度(二叉分割树、RCNN、RCNN…) ** ??? **
  • Kim: 两分支CNN结构: 分别获得粗级和细级斑块的粗细表示(选择性搜索、分层分割…)** ??? **
  • Wang:Fast R-CNN框架
    先将图像分割成小区域、分别输入FRCNN确定每个区域的显著性值、基于边缘的传播方法来抑制背景区域
  • Kim:训练CNN以预测每个图像块的显著形状+基于形状类的分层分割显著性检测算法(SCSD-HS)
  • 具有多比例输入的模型** ??? **

基于FCN的模型

** 图4表5看不懂 **
方法:

  • Li:具有两个互补分支的CNN:像素级全卷积流(FCS)和分段空间池流(SPS) ** ??? **
  • Liu:先生成粗略的全局预测,再由一系列递归卷积层组成的精化子网络将粗预测图从粗尺度细化到细尺度
  • Don:时考虑区域级显著性估计和像素级显著性预测:分别用两种方法预测显著图,再用cnn将两个显著图结合
  • Kuen:利用空间变换(从原始图像中提取子区域)和递归网络单元(改进子区域的预测)的两级CNN
  • Kruthiventi:注视预测+显著目标检测
  • Li:联合语义分割+显著对象检测** ??? **
  • Zhang: CNN提取显著线索+多级融合机制** ??? **
    优点:
  • 点对点学习和端到端训练策略成为可能
  • 卷积运算大大降低时间开销
  • 在FCN网络内部学习局部与全局信息:较低的层倾向于编码更详细的信息,如边缘和精细组件,而较深的层倾向于全局的和语义上有意义的信息
  • 精调预先训练的网络** ??? **
  • 可设计多种多样的体系结构(可以入手)
    不足:
  • 具有透明对象的场景
  • 前景和背景之间的低对比度
  • 复杂的背景
    可优化:
  • 对模特进行深度监督
  • 编解码器体系结构:将高层特征反向传播到较低层,从而允许多层特征的有效融合
  • 利用更强大的基线模型(更深)

评估方法

  • Precision–recall (PR)
  • F-measure
  • Receiver operating characteristics (ROC)
  • Area under ROC curve (AUC)
  • Mean absolute error (MAE)

数据集偏差

  • 选择偏差:由于在数据采集过程中对特定类型图像的偏好造成的,会在数据集中产生相似的图像
  • 负集偏差:缺乏丰富、公正的负集的结果
    应该避免将注意力集中在感兴趣的特定图像上,数据集应该代表整个世界,鼓励包含各种图像
  • 捕捉偏差:图像合成对数据集的影响
    最普遍的一种是在图像的中心区域合成对象的倾向,即中心偏向

显著性检测应用

  • 对象检测和识别
  • 图像和视频压缩
  • 视频/图片摘要
  • 图像质量评估
  • 人-机器人交互

补充:

  • 图片裁剪任务
    • 满足最大化重要信息和最小化裁剪面积的要求
    • 使得模型裁剪出来的结果符合人类审美
  • 图像分割
  • 文本检测
  • 人脸识别
  • 图像检索(google)
  • 拍照网上购物(Alibaba):
    • [https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247483967&idx=1&sn=5a95097784178ff7959de9074c90bad6&chksm=96f3706ba184f97de90771123302ca5c23d90cb0060589f146055bdbbdec3b295c242c3643ad&scene=21#wechat_redirect]
  • 内容审核:自动进行涉黄、广告、涉政涉暴、涉政敏感人物等内容检测(华为)
  • 手机摄影人像模式/自动修图/抠图
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值