[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析-CSDN博客

本文链接：https://blog.csdn.net/weixin_44966641/article/details/118095703

该论文探讨了自监督学习在图像美学评估任务中的应用，通过设计特定的预训练任务，使模型能区分不同类型的图像降质，进而学习到有效的特征表示。在预训练后，使用少量有标签数据进行微调，实验结果显示这种方法在有限的标注数据下优于无预训练和有监督预训练的方法。此外，熵加权策略用于优化训练过程，提高模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析

论文链接：https://arxiv.org/abs/1911.11419

本文探索从自监督的角度进行美学评估。基于一个基本的动机：一个好的美学特征表示应该能够辨别出不同的专家设计的图像篡改的方法。本文设计了一个针对于美学评估的自监督pretext task。

在这里插入图片描述

如上图所示，在自监督pretext task预训练阶段，将原图块和进行不同方法不同参数的降质之后的图块输入网络，模型需要完成两项任务，首先是分类，判断输入的降质图块是来自哪一种降质方法，然后是在同样降质方法，不同降质参数的图像上，模型需要最小化一个三元组损失，使得原图块与降质较轻的图块的相似度比重度降质图块的相似度更大，以避免某些降质方法过于容易辨认的问题。

另外，本文还设计了一个基于熵的取样加权策略，熵值更高的图块会有更对不确定的视觉美学因素，因此在训练中应当被分配更小的权重。

在这里插入图片描述

在预训练完成后，在固定住特征提取器的参数，在美学数据集上微调分类器，如图所示，本文中将特征提取器的各层的输出都拿出来做了对比，结果如下（表中所展示的指标均为美学二分类准确率）。作者还选取了几种经典的自监督pretext task与本文设计的美学相关任务做了对比。

在这里插入图片描述

作者根据各层的性能表现对各中间层特征的层次做了分析。

比较有关键的是low data adaption部分实验，因为这里应该是体现自监督学习的优越性的地方，即在预训练阶段可以使用大量的图像（因为不需要标注），根据自己设计的pretext task来进行训练，在downstream task 微调时，由于根据预训练时的pretext task，已经得到了一个对于下游任务比较有针对性的特征提取器，这样应该只需要较少的有标签训练数据就可以得到比较好的性能。

在这里插入图片描述