论文《Exploring CLIP for Assessing the Look and Feel of Images》阅读

论文《Exploring CLIP for Assessing the Look and Feel of Images》阅读

论文概述

今天带来的是论文《Exploring CLIP for Assessing the Look and Feel of Images》,论文主要通过 CLIP 模型来完成图像的质量(how it looks,即quality perception)和情感(how it feels, 即abstract perception)评分。

论文由南洋理工S-Lab完成,论文内容相对简单。整体来讲就是在 vision-language 跨模态大模型训练的时候将原始的prompt改为形容词及其反义词的二元组prompt,以减小表达中的歧义。

论文发表在AAAI 2023上,模型取名为CLIP-IQA

Preliminary

下面介绍一下一些基本术语:
IQA: Image Quality Assessment 图像质量评价
CLIP:a Vision-Language Pre-Training SOTA model,主要完成跨模态对齐(Cross-modal Alignment, CMA

方法论

CLIP-IQA architecture
本文主要聚焦于IQA中关于look和feel的评价,其实也就是客观质量评价和主观质量评价,分别(1)关注图片质量(look)如何(粗粒度讲分为“好”/“不好”;细粒度讲包括“噪声”、“明亮度”、“对比度”、“色彩”等(非CV方向,可能翻译不太准));(2)关注图像内容蕴含的抽象感受(例如“恐怖”、“自然”、“快乐”、“复杂”等)。
质量评价
随着大模型的火热,现阶段主要基于CLIP完成跨模态语义对齐,分别通过NLP token 和 CV images 的 描述,将图像和文本语义在空间中的描述进行统一,最终完成语义的挖掘。

作者认为当前主要问题是文本和图像可能存在偏差,具体而言就是文本描述存在歧义,使得无法真正做到文本和图像的一一对应。

作者怎么做的呢?其实就是把原来的文本换成二元组,加上文本描述的反义词,通过反义词从而消除文本的歧义,分别和图像生成的embedding做相似性比较,然后两个相似性分数通过softmax,得到最终的分类预测分数。即,

s = x ⊙ t ∥ x ∥ ⋅ ∥ t ∥ . (1) s=\frac{\boldsymbol{x} \odot \boldsymbol{t}}{\|\boldsymbol{x}\| \cdot\|\boldsymbol{t}\|}. \tag{1} s=xtxt.(1)

将原来CLIP中的对比学习求相似度部分改为下面:

s i = x ⊙ t i ∥ x ∥ ⋅ ∥ t i ∥ , i ∈ { 1 , 2 } (2) s_i=\frac{\boldsymbol{x} \odot \boldsymbol{t}_i}{\|\boldsymbol{x}\| \cdot\left\|\boldsymbol{t}_i\right\|}, \quad i \in\{1,2\} \tag{2} si=xtixti,i{1,2}(2)

s ˉ = e s 1 e s 1 + e s 2 . (3) \bar{s}=\frac{e^{s_1}}{e^{s_1}+e^{s_2}}. \tag{3} sˉ=es1+es2es1.(3)

这里,我们附上CLIP的大概原理图:
CLIP

另外,在上面的基础上,作者提出对于CLIP中的图像编码器来讲,针对于质量评价任务,positional embedding是多余的。例如,对于分辨率评价来讲,如果对图片进行裁剪,就无法判断原图的分辨率是否达到要求(这里作者讲的模型是ResNet-50-based CLIP,不知道是不是笔误,不应该是ViT-based CLIP吗?ResNet 有设计到 positional embedding的部分吗?不都是直接卷积移动吗?了解不深,欢迎评论区讨论)。

作者对 image encoder 采用了ResNet variant(具体是何变种没有提及),取消了positional embedding 的设计。

Experiments

Experiments for Overall Quality
可以看到,CLIP-IQA 在 无精调情况下,表现基本持平或小幅度劣于BRISQUE。这里的最好表现的baseline BRISUQE(2012),不知道这个BRISQUE属不属于SOTA方法。

在有精调的情况下,CLIP-IQA不那么好。

结论

本文创新性可能略低,同时实验部分表现好像也不那么好。在实验部分的结果展示中,使用了太多的可视化展示,而没有具体的数字呈现,总给人一种遮遮掩掩的感觉。甚至还加了一个人工识别(25个人)与模型结果的比较部分,挺迷的。

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 移动电子健康应用程序的未来:探索HTML5作为C的开发平台。 移动电子健康应用程序在过去几年中迅速发展,成为医疗行业的重要组成部分。随着移动设备普及率的提高,人们越来越多地使用智能手机和平板电脑来管理和监测健康状况。未来,这种趋势将继续增长,并且我们可以期待移动电子健康应用程序的需求将更加多样化和复杂化。 在开发移动电子健康应用程序时,HTML5是一种值得探索的开发平台,尤其是在C语言环境下。HTML5是一种现代化的标记语言,为开发者提供了许多新的功能和工具,可以用于构建各种移动应用程序。 首先,HTML5具有跨平台的优势。无论是在iOS、Android还是其他操作系统上,HTML5应用程序都可以进行开发和运行,这为开发者带来了更广泛的受众基础。它还不需要任何额外的插件或软件,使得应用程序更容易被用户接受和使用。 其次,HTML5提供了丰富的多媒体支持。移动电子健康应用程序可能需要展示各种类型的健康数据,如图表、图片和视频等。HTML5的多媒体功能可以帮助开发者在应用程序中轻松地集成这些元素,以便于用户更好地理解和管理自己的健康状况。 此外,HTML5还具有良好的互联互通性。它可以与云计算技术和其他网站服务进行集成,使用户能够轻松地访问和共享健康数据。这种互联互通性为医疗行业提供了更多的合作机会,促进了移动电子健康应用程序的进一步发展。 总之,HTML5作为移动电子健康应用程序的开发平台具有巨大的潜力。它跨平台、提供多媒体支持和良好的互联互通性,能够满足不断增长的移动电子健康应用程序需求。在未来,我们可以期待HTML5在C语言环境下的应用得到更多的开发和创新。 ### 回答2: 移动电子健康应用程序的未来:探索HTML5用于C语言的开发。 移动电子健康应用程序的未来十分看好,而HTML5为C语言的开发提供了许多新的机遇。HTML5是一种用于构建网页和Web应用程序的标准技术,它的灵活性和可移植性使其成为移动电子健康应用程序开发的有力工具。 首先,HTML5提供了更丰富的用户体验。通过使用HTML5的标准化元素和功能,开发人员可以创建更具吸引力和直观的移动电子健康应用程序。这意味着用户可以更轻松地浏览内容、交互和操作移动电子健康应用程序,从而提高了其使用的便利性。 其次,HTML5的跨平台特性使得开发和部署移动电子健康应用程序更加容易。传统上,C语言被广泛用于移动应用开发,而使用HTML5可以将移动电子健康应用程序轻松地跨平台到不同的设备和操作系统上。这样,开发人员可以更快速地将应用程序推向市场,提高了开发的效率和可扩展性。 此外,HTML5还提供了强大的图形和多媒体处理能力。移动电子健康应用程序通常需要处理复杂的图表、图像和视频等内容,而HTML5提供了丰富的图形和多媒体功能,使开发人员能够更直观地展示和处理这些数据。这对移动电子健康应用程序的可视化和数据分析非常重要。 然而,HTML5也存在一些挑战。与传统的原生应用程序相比,HTML5应用程序可能性能略逊一筹。此外,开发过程中需要考虑设备的兼容性和安全性等问题,以确保移动电子健康应用程序的可靠性和安全性。 总体来说,随着移动电子健康应用程序市场的不断增长和HTML5技术的发展,HTML5用于C语言的开发在未来将发挥重要作用。开发人员可以利用HTML5的灵活性、可移植性和丰富的功能,创建更具吸引力和易用性的移动电子健康应用程序,从而为用户提供更好的健康管理体验。 ### 回答3: 移动电子健康应用程序的未来:探索HTML5用于C 移动电子健康应用程序开发一直是关注的热点,随着技术的不断进步和人们对健康的关注度增加,我们可以预见未来的发展方向。HTML5是一种流行的开发技术,已广泛应用于Web应用程序开发中。那么,将HTML5与C语言结合,是移动电子健康应用程序开发领域的一大趋势。 首先,HTML5具有跨平台的特点。移动电子健康应用程序在不同的操作系统和设备上运行,兼容性是一个重要的问题。HTML5可以跨平台运行,不受特定操作系统或设备的限制,使得开发人员可以更加便捷地创建应用程序。 其次,HTML5具有丰富的功能和交互性。移动电子健康应用程序需要展示各种健康数据、提供交互操作和界面,以及实时更新数据等功能。HTML5提供了多种元素和API,开发人员可以根据需求自由定制用户界面,并实现与用户的交互操作。此外,HTML5还支持多媒体和实时通信,可以提供更丰富的用户体验。 再次,HTML5支持离线应用程序。对于移动电子健康应用程序来说,有时在没有网络连接的情况下,用户仍然希望能够使用一些功能和数据。HTML5提供了离线存储和缓存功能,可以将应用程序的核心功能和数据缓存到本地,使得用户在离线情况下仍然能够访问和使用一部分功能。 最后,HTML5具有不断更新和发展的潜力。随着技术的进步,HTML5的功能将不断增强,开发人员可以充分利用这些新特性来提升移动电子健康应用程序的性能和体验。 综上所述,HTML5与C语言结合是移动电子健康应用程序开发的未来趋势。通过使用HTML5,开发人员可以实现跨平台、丰富功能、离线支持等优势,提供更好的用户体验和便捷的开发方式,推动移动电子健康应用程序的发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值