Assessing Image Quality Issues for Real-World Problem(论文翻译)

Assessing Image Quality Issues for Real-World Problem(论文翻译)

论文翻译

论文地址:Assessing Image Quality Issues for Real-World Problem
数据集和源码地址:https://vizwiz.org

Abstract

我们引入了一个新的大规模数据集,它将图像质量问题的评估与两个实际的视觉任务联系起来:图像字幕和视觉问题回答。
首先,我们针对39181张盲人拍摄的图片,从6个选项中确定每张图片的质量是否足以识别出内容,以及发现了哪些质量缺陷。这些标签是我们作出以下贡献的重要基础:
(1)一个新问题和算法,决定是否一个图像识别的内容和质量不足识别,所以不是不能配上字幕,
(2)一个新问题和算法,决定一幅图像包含6个质量缺陷中的哪一个,
(3)一个新问题和算法,用于判断一个视觉问题是由于无法识别的内容而无法回答,还是因为感兴趣的内容在视野中缺失而无法回答,
(4)一个新的应用,更有效地创建一个大规模的图像字幕数据集,自动决定一幅图像的质量是否不够,因此不应该字幕

1. Introduction

1.1 针对特定的视觉任务,提出了一个IQA数据集

标签分类从无质量问题题到6种缺陷:模糊、过度曝光(明亮)、曝光不足(黑暗)、取景不当、障碍物和旋转视图
在这里插入图片描述

1.2 将这个新数据集用于以下三个方面:

(1) 引入了一个新的问题和算法来预测一幅图像是否有足够的质量来加上标题;
(2) 证明该预测系统的另一个好处是,通过很少的人力就能创建大规模图像字幕数据集;
(3) 引入了一个新的问题和算法,告诉用户提交一个新的视觉问题,这个问题是可以回答的,还是因为图像内容无法识别而不能回答,或者因为图像内容缺失而不能回答。

2. Related Work

2.1 Image Quality Datasets

由于与通过模拟高质量图像的失真而发现的图像质量问题相比,在真实环境中出现的图像质量问题表现出截然不同的特征,因此,本文创建大规模的数据集,标志质量问题的自然图像。本文不是专注于为每幅图像分配一个质量分数,以捕获各种图像质量问题中的任何一个,相反,其工作重点是认识到每个不同的质量问题的存在,并评估质量问题对实际用户的实际应用需求的影响。

2.2 Image Quality Assessment

提出了一种新的NR-IQA算法

2.3 Efficient Creation of Large-Scale Vision Datasets

引入了一个新的问题和算法,当图像内容无法被人类识别,因此应该被丢弃,并展示了这些解决方案的好处,更有效地创建一个大规模图像字幕数据集。

2.4 Assistive Technology for Blind Photographers

作为之前工作的补充,我们引入了一套新的AI问题和解决方案,当提醒blind peopple拍照者观察到什么图像质量问题时,可以提供更细粒度的指导。特别的,我们引入了新的问题,(1)识别图像内容是否被识别(并加上标题),(2)解释当有关图像的问题可以回答,但由于图像内容无法识别而无法回答,或者由于图像中缺少感兴趣的内容而无法回答时的问题.

3. VizWiz-QualityIssues

本节描述作者创建一个大规模的人工标记数据集,以支持算法的发展,可以评估图像的质量。

3.1 Creation of the Dataset

Quality Issues Taxonomy

我们评估的一个质量问题是图像内容是否能被视力正常的人充分识别,以便为图像添加标题。我们还标记了大量的质量缺陷,以将我们的工作与其他同样关注图像质量问题的论文联系起来。具体来说,我们包括以下类别:
模糊(图像是否模糊?),亮(图像是否太亮?),暗(图像是否太暗?),障碍物(场景是否被摄影师的手指遮挡在镜头上,或其他意外物体?),取景(图像是否缺少必要的部分?),旋转(图像是否需要旋转才能正常观看?)或者无问题(图像中没有质量问题)。

Image Labeling Task

为了有效地给所有图片贴上标签,我们设计了在众包平台上运行的任务——亚马逊土耳其机器人。任务界面的左半部分显示了一个图像,右半部分显示了带有用户输入字段的说明。
(1) 众包工人被要求要么用一句话描述图片,要么点击一个按钮,标明图片质量不足以识别内容(因此不能配上字幕)。当单击该按钮时,图像描述将自动填充以下文本:“质量问题太严重,无法识别可视内容。
(2) 众包工人被要求从预先定义的观察到的图像质量缺陷列表中选择所有的缺陷。显示的是上述六个原因,以及其他(OTH)链接到免费输入的文本框,所以可以描述其他缺陷,没有(非),所以工人们可以指定图像没有质量缺陷。补充资料中显示了用户界面的屏幕截图。

Crowdsourcing Labels

我们招募了5名众包工人给每张图片贴上标签。我们认为一个标签只有在至少有两名众包工人选择该标签时才是有效的。

3.2 Characterization of the Dataset

Prevalence of Quality Issues

我们首先检查了盲人拍摄的照片出现各种质量问题的频率,以确定(不)常见的原因。为了做到这一点,我们统计了无法识别图像和每个质量缺陷出现的频率。
大约有一半的图像存在质量缺陷。(即,1-p(NON)=51.6%)。我们观察到最常见的原因是图像模糊(41.0%)和不适当的框架(55.6%)。相比之下,只有一小部分图像被标记为太亮(5.3%),太暗(5.6%),物体模糊(3.6%),需要旋转才能成功观看(17.5%),或其他原因(0.8%)。这些数据揭示了如何改进辅助摄影工具以改善盲人用户体验的最有希望的方向。具体地说,主要功能应该集中在相机抖动检测和目标检测,以减少拍摄图像模糊或框架缺陷的可能性。
我们还观察到,图像质量问题非常严重,14.8%的图像内容被认为无法识别。按绝对价值计算,这意味着雇佣众包工人为包含无法辨认的内容的图片配文浪费了3829美元和379小时的人工注释。换句话说,通过自动过滤这些没有标题的图片,这样它们就不会被发送给众包工作者,可以大大节省成本。我们将在4.3节中进一步探讨这一思想。

Likelihood Image Has Unrecognizable Content Given its Quality-Flaw

接下来,我们检查图像内容是不可识别的概率的条件下,质量缺陷的每个原因。结果如图2所示。
在这里插入图片描述

图2:左:不可识别的质量缺陷图像的百分比。右:由于质量缺陷而无法识别图像的百分比。
几乎所有的原因导致的百分比都大于无法识别图像的整体百分比,占所有图像的14.8%。这证明了我们直觉上的猜测,即有质量缺陷的图像更有可能有无法识别的内容。我们观察到,这一趋势在受到障碍物(OBS)和光照不足(BRT和DRK)的图像中最为强烈,比例刚好超过40%。
有趣的是,有两类图片的百分比要小于无法识别的图片的总体百分比,占所有图片的14.8%。
第一类,被标记为需要旋转以正确查看(ROT)的图像只有8.3%被认为无法识别。因为如果观看者倾斜他们的头(或应用视觉显示工具旋转图像),仍然可以识别旋转缺陷图像内容。
第二类,被标记为没有瑕疵(非)的图像只有3.9%被认为无法辨认。这个微小的数字与“无法识别”和“没有缺陷”是两个相互冲突的概念一致。然而,这个比例不是0%的事实表明人类可以提供不同的观点。换句话说,图像质量评估任务可以是主观的。

Likelihood Image Has Each Quality-Flaw Given its Content is Unrecognizable

接下来,我们检查一个图像显示每个质量缺陷的概率给定其内容是不可识别的。结果如图2所示。总的来说,我们的调查结果与“普遍存在的质量问题”一段中所确定的结果是一致的。比如,我们再一次观察到最常见的原因是图像模糊(71.0%)和取景不当(71.2%)。同样,无法识别的图像与其他质量缺陷的关联较少。

Relationship Between Quality Flaws in Images

最后,我们量化了所有可能的质量缺陷对之间的关系。这样做,我们就有动力提供一种测量方法,在比较任何一对质量缺陷时,能够洞察因果关系和协同现象,同时避免测量联合概率。为了实现这一目标,我们引入了一种新的测度,我们称之为相互关系指标I(A,B),其定义如下:
在这里插入图片描述
关于这项措施的更多细节和动机在补充材料中提供。简单地说,较大的**正I(A,B)**值表明A和B倾向于与A共同作用,导致B发生得更频繁。结果如图3所示。
在这里插入图片描述
图3:质量缺陷的相互关系。值被缩放,每个值乘以100。第I行和第j列的网格显示了I的值(缺陷I,缺陷j)。为了清晰起见,对角线被抑制。
我们观察到,几乎所有的质量缺陷都倾向于相互出现,如 I 的正值所示。首先,我们惊奇地发现BRT和DRK之间存在着某种关系(即,I(BRT,DRK)=73大于0),因为这些缺陷似乎是不相容的概念。然而,通过对数据的目视检查,我们发现一些图像确实存在两种光照缺陷。我们在补充材料中举例说明了这一点和其他质量缺陷的相关性。从我们的发现中,我们还观察到“无缺陷”不会与其他质量缺陷同时出现;即,对于NON的行和列,网格中的值都是负数。这一发现与我们的直觉相一致,即标记为NON的图像不太可能同时出现质量缺陷。

4. Classifying Unrecognizable Images

在为图像配字幕时,普遍的假设是图像质量足以识别图像内容。然而,盲人无法验证他们拍摄的图像质量,众所周知,他们的图像质量可能非常差.因此,现在我们来研究我们的大规模高质量数据集的好处,以便训练算法检测什么时候的图像是不可识别的,因此没有标题。

4.1 Motivation: Inadequate Existing Methods

在探索新的算法之前,首先检查现有的方法是否适合我们的目的是很重要的。因此,我们检查了相关的NR-IQA系统是否能够检测出无法识别的图像。为此,我们对完整的VizWiz-QualityIssues数据集应用五种NR-IQA方法:BRISQUE[33]、NIQE[34]、CNN-RIQA[22]、DNN-NRIQA[6]和NIMA[44]。前两种是常用的传统方法,依赖于手工制作的特性。后三种方法基于神经网络,并在第2节中提到的IQA数据集上进行训练。例如,图4中的DNN-NRIQA-TID和DNN-NRIQA-LIVE分别针对TID数据集和LIVE数据集进行训练。直观地看,如果算法对这个任务有效的话,我们可以预期,可识别图像的分数大部分分布在高分区域,而非可识别图像的分数大部分分布在低分区域。
在这里插入图片描述
图4:传统NR-IQA系统预测的图像质量分数分布[33,34,22,6,44]在我们新的VizWiz-QualityIssues数据集。可识别图像和不可识别图像得分分布的重叠表明,没有一种方法能够区分可识别图像和不可识别图像。
结果如图4所示。一个关键的发现是,可识别图像和不可识别图像的分数分布有很大的重叠。也就是说,在我们的数据集中,没有一种方法能够区分可识别的图像和不可识别的图像。我们数据集中无法识别的图像。这一发现表明,现有的方法是在现有的数据集上进行训练的。(例如LIVE、TID、CSIQ)不适用于我们在VizWiz-QualityIssues数据集上的新任务。这可能部分是因为由人为失真(如压缩、高斯模糊和加性高斯噪声)引起的质量问题,不同于由相机对焦、照明、取景等不良引起的自然失真。这也可能是因为显示整体图像质量的分数和我们提出的任务之间没有1-1的映射关系,因为质量分数低的图像可能仍然有可识别的内容。

4.2 Proposed Algorithm

观察到现有的IQA方法不足以解决我们的问题,我们现在引入模型来完成我们的新任务,即评估图像是否可识别。

Architecture

我们使用ResNet-152[18]来提取图像特征,然后用二维全局池处理,然后是两个完全连接的层。最后一层是一个具有sigmoid激活函数的单个神经元。我们训练这个算法使用一个Adam优化器与学习率设置为0.001为8个epoch。我们固定在ImageNet[9]上预先训练好的ResNet权重,只学习两个完全连接层中的权重。

Dataset Splits

为了训练和评估我们的算法,我们对数据集应用了52.5%/37.5%/10%的分割,以创建训练、验证和测试分割。

Baselines

我们将算法与许多基线进行比较。其中包括随机猜测,即图像不可识别的概率为0.148。我们也分析了线性支持向量机预测与尺度不变特征变换(SIFT)特征。直观上来说,一张低质量的图片应该没有关键点。我们也评估了一个线性支持向量机预测直方图的定向梯度(HOG)特征。

Evaluation Metrics

我们使用平均精度、召回率和f1分数来评估每种方法,准确性被排除在外,因为不可识别性的分布高度偏向于“错误”,这种不平衡的数据遭受准确性悖论。

Results

结果如表1所示。我们观察到,SIFT和HOG都是比随机猜测强得多的基线,在精度上得到较高的分数,特别是SIFT的87.2分。然而,他们在召回方面的得分都很低。这意味着SIFT和HOG在捕捉无法识别图像的子集方面做得很好,但仍然遗漏了许多其他的图像。另一方面,ResNet模型在保持良好的平均精度分数的同时,获得了更高的召回分数,这意味着它在学习非识别图像的特征时更加有效。这是令人兴奋的,因为这样一种算法可以立即对盲人摄影师使用,否则必须等待近两分钟,以了解他们的图像是不适合的质量图像字幕。
在这里插入图片描述
表1:图像内容能否被识别算法的性能(并加上标题)。

4.3 Application: Efficient Dataset Creation

现在我们来看看我们的算法在帮助创建大规模训练数据集方面的另一个潜在好处。
为了支持这项工作,我们将数据集划分为三个集合。其中一组用于训练我们的图像不可识别算法。其中一组用于训练我们的图像不可识别算法。第二个集合用于训练我们的图像字幕算法,我们称之为字幕-训练-集合。第三个集合用于评估我们的图像字幕算法,我们称之为字幕-评估-集合
我们使用我们的方法来确定在字幕-训练-集中使用哪些图像来训练图像字幕算法。特别地,包括标记为可识别的N幅图像,排除其余图像。我们将此方法与三个基线进行比较,具体训练如下:
字幕-训练-集合中的所有图像,字幕-训练-集合中N张图像的随机样本,字幕-训练-集合中N张已知可识别图像的完美样本。
我们评估了两种先进的图像字幕算法,它们分别在每个训练集上进行了独立训练,分别针对八个评估指标:BLEU-1-4[35]、METEOR[10]、ROUGE-L[27]、CIDEr-D[46]和SPICE[2]。
结果如表2所示。我们的方法与在所有图像和完美集上训练算法的效果相当。相比之下,我们的方法在随机样本上得到了改进的结果。我们的方法在随机样本上得到了改进的结果。总之,这些发现为我们的预测系统成功地保留了有意义的图像,同时删除了对字幕任务没有信息的图像(例如:认不出来)。这表明,使用可识别性预测系统的一个好处是,在众包字幕时(首先去除不可识别的图像)可以节省时间和资金,而不会降低下游经过训练的图像字幕算法的性能。
在这里插入图片描述
表2:在完整字幕-训练-集、注释为可识别的训练图像(完美标志)、预测为可识别的训练图像(预测标志)和从字幕-训练集随机采样的子集上训练的两种图像字幕算法的性能(B@=BLEU-)

5. Recognizing Unanswerable Visual Questions

视觉问题“可回答性”问题是决定一个视觉问题是否可以被回答[17]。然而,如图5所示,视觉问题可能无法回答,因为图像无法识别,或者因为问题的答案在可识别的图像中缺失。为了给摄影师提供更细粒度的指导,关于如何修改视觉问题使其可回答,我们超越了预测一个视觉问题是否不可回答[17],并引入了一个新的问题,即预测为什么一个视觉问题不可回答。
在这里插入图片描述
图5:由于两个原因而无法回答的可视化问题示例。左边两个示例具有无法识别的图像,而右边两个示例具有可识别的图像,但感兴趣的内容在视野中缺失。我们提出的算法正确地预测了为什么这些例子中视觉问题是无法回答的。

5.1 Motivation

我们扩展了VizWiz-VQA数据集[17],它将每个图像-问题对标记为可回答的或不可回答的。我们检查可回答性与可识别性以及每个质量缺陷之间的关系。为方便起见,我们使用以下符号:A:可回答的,A¯:不可回答,R:可识别,R¯:不可识别,Q:质量问题,P(·):概率函数。结果如图6所示。我们可以观察到对于大多数质量缺陷Q, P(A¯|Q)大于P(A¯), P(A¯) = 28.7%增加到P(A¯|R¯) = 58.7%。此外,当已知问题无法回答时,概率P(R¯)从14.8%增加到P(R¯|A¯) = 30.2%。观察到无法回答的问题的一个很大的原因是图像是无法识别的图像,我们有动机装备VQA系统的功能,能够阐明为什么他们的问题是无法回答的。
在这里插入图片描述
图6:顶部:基于不可识别性或质量缺陷的无法回答问题的部分。底部:质量问题和不可识别的图像给出答案的分数。值通过乘以100来缩放。

5.2 Proposed Algorithm

Architecture

我们的算法扩展了Up-Down VQA模型[3]。它以编码后的图像特征和成对问题作为输入。图像特征可以是ResNet-152[18]提取的网格级特征,也可以是Faster-RCNN[40]或Detectron提取的物级特征[13,52]。输入问题首先由一个GRU单元进行编码。然后,由上而下的注意力模块从编码的问题表示和输入的图像特征计算加权图像特征。图像和问题特征通过元素的乘法进行耦合。预测模块对该耦合特征进行处理,实现对可回答性和可识别性的预测。我们在模型的最后使用两个不同的激活函数来做出最终的预测。第一个是softmax,它预测了三个排他性类:可回答类、不可识别类和内容信息不足类(答案不能在图像中找到)。第二个激活函数是两个独立的sigmoids,一个负责解答,另一个负责识别。我们使用Adam优化器对网络进行训练,学习率为0.001,仅针对特征提取后的层。

Dataset Splits

我们将VizWiz数据集按照70%/20%/10%的比例划分为训练/验证/测试集。

Evaluation Metrics

我们使用平均精度、精度、召回率和f1分数评估性能,使用简单的阈值0.5对概率值进行二值化。为了模型间的比较,我们还报告了每种变体的精确召回曲线。

Baselines

为了进行比较,我们考虑了一些基线。一种方法是使用原始模型来预测一个视觉问题是否可回答,也使用了自上而下的注意力模型[17]。我们还评估了前一节中用于评估识别算法的随机猜测、SIFT和HOG基线。

Results

结果如表3和图7所示。我们的模型的性能与可回答性基线[17]相当。这是令人兴奋的,因为它表明,联合学习预测可回答性和可识别性不会降低性能。即,TD+softmax和TD+sigmoid模型的平均精度得分优于基准(72.6,73.6 > 71.7),F1得分(67.0,68.0 > 64.8)也是如此。
在这里插入图片描述
在这里插入图片描述
表3:预测为什么一个视觉问题是无法回答的性能:无法识别的图像与无法回答的图像,因为感兴趣的内容在视野中缺失。[17]仅预测可回答性,并作为不可回答性预测的基线。随机猜测、SIFT和HOG只能预测可识别性,并作为不可识别性预测的基线。
图7:当问题不可回答时,预测不可识别性的五种算法的精确回忆曲线。
我们的结果也强调了学习共同预测可回答性和可识别性任务(即,行5 - 9)的重要性过度依赖更基本的基线(即,行2 - 4)。如表3所示,较低的recall值意味着SIFT和HOG不能捕捉到很多无法识别的图像,而我们的模型学习了图像特征,在recall和f1得分上都很好。
接下来,我们比较TD+softmax和TD+sigmoid的结果。我们观察到,由于具有可比性的平均精度分数和F1分数,它们在不可回答性预测方面具有可比性。对于不可识别性的预测,TD+softmax比TD+sigmoid稍弱,因为平均精度和F1分数稍低。其中一个原因可能是当可回答性为真时,将不可识别性手动赋值为假。最初,14.8%的图像是无法识别的,但在分配后,这一比例下降到8.7%。从更有偏见的数据中学习是一项更困难的任务,这可以部分解释TD+softmax模型表现较差的原因。

6. Conclusions

我们引入了一个新的图像质量评估数据集,它来自一个真实的用例,在这个用例中,人们为了了解他们的视觉环境而努力捕捉高质量的图像。我们展示了该数据集在鼓励新算法开发方面的潜力,这些算法可以支持真实用户试图获取图像标题和对他们的视觉问题的回答。

免责声明:本博客所发布的一切内容仅限用于学习目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。

了该数据集在鼓励新算法开发方面的潜力,这些算法可以支持真实用户试图获取图像标题和对他们的视觉问题的回答。

免责声明:本博客所发布的一切内容仅限用于学习目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
为评估生成模型的改进精确度和召回率指标,首先需要理解生成模型的基本概念。生成模型是一种用于根据给定的输入数据生成新样本的机器学习模型。它可以学习数据的分布,并生成与训练数据相似的新样本。 精确度和召回率是评估模型性能的重要指标。精确度衡量模型生成的样本中正确样本的比例,而召回率衡量模型是否能够完整地生成真实样本的比例。 对于评估生成模型的精确度和召回率,可以考虑以下改进指标: 1. 平均精确度:除了计算总体精确度外,还可以计算每个类别的精确度,并求其平均值。这可以帮助我们了解模型在不同类别上的性能差异,并对结果进行更精细的分析。 2. 样本多样性:在评估生成模型时,除了关注精确度和召回率,还应注意样本生成的多样性。生成模型应该能够生成多样化的样本,而不仅仅是在训练数据上的复制。我们可以使用多样性指标,如样本覆盖率和互信息来衡量生成样本的多样性。 3. 异常检测:生成模型应能够生成稀有或异常样本。因此,我们可以引入一个异常检测指标,例如生成模型中的KL散度,以评估模型对于异常样本的生成能力。 4. 推断速度:对于生成模型的评估,推断速度也是一个重要的指标。快速的推断能力可以提高模型的实时性,使其适用于许多实际应用。 通过引入这些改进指标,我们可以更全面地评估生成模型的性能。这些指标可以提供有关模型的精确度、召回率、样本多样性、异常检测和推断速度等方面的信息,帮助我们更好地了解生成模型的潜力和局限性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值