文献阅读笔记5 On the Use of Deep Learning for Blind Image Quality Assessment(2D)

On the Use of Deep Learning for Blind Image Quality Assessment


  • 摘要
    我们报告了不同的设计选择,从使用预训练的卷积神经网络(Cnn)提取的特征作为一般图像描述,到使用从cnn中提取的特征进行图像质量测试。原始图像的多个子区域。每个子区域的分数是用支持向量回归(Svr)机器提取的,以cnn为输入特征,对基于类别的图像质量进行评估。

  • 2 使用了预训练的CNN
    transfer learning, known also as fine-tuning(但是后面又比较了两者??)
    In this work, we use the Caffe network architecture
    在本工作中,我们评估了几种特征提取设计选择的效果,例如:实验(1)使用同一结构下进行不同的图像分类任务的不同CNN;实验(2)使用若干不同的图像子区域(相对于整个图像的使用),以及使用不同的策略进行特征和分数预测池;实验(3)使用对基于类别的预训练(微调的)cnn图像质量评估( the use of a CNN that is fine-tuned for category-based image quality assessment.)
  • 2.1 图像描述Image description using pre-trained CNNs
    特征是通过向cnn提供整个图像来计算的,必须调整其大小以适应其预定义的输入大小(见图2.a)。
    这里写图片描述
    我们尝试使用三个cnn共享相同的结构,这些结构已经在三个不同的图像分类任务上进行了预培训。
    ImageNet-CNN
    Places-CNN
    ImageNet+Places-CNN(好)

  • 2.2 特征池化策略Feature and prediction pooling strategies
    图像预处理的方法,用多个subimage代替resize。Since the resizing operation can mask some image artifacts, we consider here a different design choice in which CNN features are computed on multiple subregions (i.e. crops) of the input image. Crops dimensions are chosen to be equal to the CNN input size so that no scaling operation is involved.
    因此,使用多个子图可以评估当地的质量。最后的图像质量是通过汇集每一个子图的评估结果来计算的。例如,这允许区分全局模糊的图像和高质量的场深度图像。
    我们实验使用随机选取的不同数量的子区域[22],范围从5到50。为了预测整个图像的质量,必须融合来自多个子图的信息。因此试验了不同的融合策略:
    a 将特征池化(最大、最小和平均池化)
    b 信息融合是通过将子区域特征向量连接成一个较长的特征向量,再评分
    c 预测分数池化(最大、最小和平均池化)
    这里写图片描述
    (N是切割的子块)
    Feature pooling (avg-pool,@30crops) 0.7938 0.7828
    Feature concatenation (@35crops) 0.7864 0.7724
    Prediction pooling (avg-pool,@20crops) 0.7873 0.7685

    • 2.3 Image description using a fine-tuned CNN
      卷积神经网络通常需要数百万的训练样本,以避免过拟合。由于在盲图像质量评估领域,可用数据量并不大,我们研究了利用现有nr-IQA数据对经过预先训练的CNN进行细化的问题。 当数据量很小时,最好保留一些早期的层,只对网络的某些高级部分进行微调。这个过程,也就是所谓的迁移学习[ 54, 3 ],是可行的因为CNN的第一层学习功能类似的Gabor滤波器和色块,似乎不是具体到一个特定的图像区域;而下面的层细胞逐渐变得更具体的给定的域。
      我们开始对图像质量评估任务的微调过程,将预先训练的CNN的最后一个完全连接的层替换为一个以随机值初始化的新层,从零开始训练新层,使用反向传播算法[25]更新其他层的权重,用于图像质量评估。在本工作中,图像质量数据是一组MOS值的图像。

  • 3 Image Database and evaluation criterions
    样本划分80%和20%
    在所有实验中我们使用caffe开源框架[18]进行CNN训练和特征提取,并使用liblineLibrary[12]进行SVR训练。

  • 4 Experimental results
  • 4.1 Experiment I: Image description using pre-trainedCNNs
    表2中列出了10列测试分裂的中位lcc和srocc值。从结果可以看出,ImageNet-Place CNN优于ImageNet-CNN和Place-CNN,而位置CNN的性能最差,这证实了我们最初的假设:CNN接受的概念越多,就能识别出更多的概念,更有效的是它的通用图像内容建模功能。
  • 4.2 Experiment II: feature and prediction pooling strategies
    鉴于先前实验的结果,这里考虑的唯一特征是使用ImageNet Place-CNN提取的特征。
    我们评估了三种不同的融合方案,将多个子区域生成的信息组合起来,得到整个图像的单一分数预测。第一个方案是特征池化,可以看作是一种早期的融合方法,对特征向量进行元素级的融合;第二个方案是特征级联,通过将多个特征向量串联成一个单一的特征向量来进行信息融合。第三个方案是对特征向量进行单元级融合。预测池,可以被看作是一种后期融合方法,其中信息融合是根据预测的质量分数进行的。
    在所有实验中,随机子图的数量按5步变化在5到50之间。图5显示了LCC和Srocc在所考虑的子图数量方面的地块,而每种融合方案的最佳配置的数值见表3。两个样本t−检验的结果见附录。从图中可以看出,特征池化(a)传递的效果最好。预测分数池化(c)只能在考虑少量作物时才能给出与特征池化的结果相当的结果。最后,特征串联(b)给出了最差的结果,只有在考虑了大量子图时,才能给出与预测池化结果相当的结果。
    这里写图片描述

  • 4.3 Experiment III: Image description using a fine-tuned CNN
    在以前的所有实验中,我们使用预先训练(pre-trained )的cnn进行特征提取。在本实验中,我们微调(fine-tune)ImageNet-Place-CNN用于NR-IQA任务。CNN被选择性地微调,将图像作物划分为五个失真类(即坏、差、公平、好和优秀),通过清晰地将mos划分成五个不相交的集合。因为这五个集合的图像数量是不均匀的(见图8)。训练我们使用样本加权方法[17],给属于较低表示失真类[45,57]的图像赋予较大的权重(?)。 在nr-iqa任务中,这个加权方案比批平衡(即确保在每一批中所有类都是均匀采样)具有更好的结果,因为它保证了更多的异构批。
    图6显示了lcc和srocc在所考虑的作物数量方面的地块,而最佳配置的数值则在表4中报告。至于先前的实验,通过进行双样本t−检验(其结果在附录中报告),选择了最佳作物数量。可以从这些图中注意到,预测池传递的是最好的结果。无论考虑的作物数量是多少,对于表4所报告的最佳配置,t−检验的结果表明,预测平均池的结果在统计上优于特征平均池(p值等于4.7·10−4)。
    这里写图片描述

  • 4.4 Comparison with the state-of-the-art BIQ algorithms
  • 4.5 Experiment on benchmark databases of synthetically distorted images

  • 5 Conclusions
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值