【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理

本文介绍清华大学提出的OrdinalCLIP,一种基于序数提示的学习方法,用于解决语言引导的有序回归问题。该模型通过结合语言原型和图像特征,改进了现有方法对序数顺序的忽视和过拟合问题,在年龄估计等任务中展示了优秀性能。
摘要由CSDN通过智能技术生成

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression

  • NeurIPS 2022
  • 清华大学提出OrdinalCLIP
  • 基于序数提示学习的语言引导有序回归

1 有序回归

解决类别之间有某种顺序关系的模型,比如年龄、收入等。考虑分类损失+不同类别之间的顺序关系,比如我们对人的年龄进行分类,真实年龄是0,分类成1或2的损失是相等的,但其实1岁比2岁更接近0岁,所以应该有着更小的损失。有序回归就是解决这个问题,除了考虑分类损失以外,还要考虑误分类的类别和真实类别之间的排序关系,排序更近的损失应该更小。

2 现有方法缺陷

现有方法通常将每个序数视为一个类别,但是这种方式忽视了序数的顺序信息。同时,因为学习到的序数概念主要来自训练集,此种方式容易过拟合训练标签,通常无法取得令人满意的性能。

3.1 问题重新定义

本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。
在这里插入图片描述

3.2 语言原型

1 序数嵌入学习模块

论文提出的 OrdinalCLIP 包括 3 个模块:

  • 序数嵌入学习模块
  • 序数嵌入与上下文嵌入联合编码模块
  • 语言原型特征-图片特征匹配模块

2 序数嵌入与上下文嵌入联合编码模块

  • 在年龄估计任务中,将上下文提示词设计为 “a person at the age of [ r j r_j rj] ” for the rank [ r j r_j rj]
  • 将句子的每个单词映射到一个 512 − D 512-D 512D的单词嵌入向量
  • 所有的词嵌入都被发送到文本编码器以获得文本嵌入

3 语言原型特征-图片特征匹配模块

  • 可以使用任何流行的视觉主干作为图像编码器
  • 文本编码器参数固定的情况下,训练图像编码器,使图像特征与语言潜在空间对齐
  • 对于一批图像X,归一化后的图像特征表示为 I = I i I = 0 B − 1 I={I_i}^{B-1}_{I=0} I=IiI=0B1
    • i i i:第i个图像
    • B B B:批处理大小batch_size

4 相似度计算

内积计算两种模态之间相似性得分
在这里插入图片描述

  • a i , j a_{i,j} ai,j:第 i i i个图像特征和第 j j j个语言原型之间的相似性得分
  • I i {I_i} Ii:图像特征
  • p j p_j pj:语言原型
  • p j T p_j^T pjT p j p_j pj的转置
  • a i , j a_{i,j} ai,j通过图像特征 I i {I_i} Ii与语言原型 p j p_j pj内积得到
  • 相似性矩阵 A = [ a i , j ] A=[a_{i,j}] A=[ai,j]

5 总损失函数

在这里插入图片描述

  • B:批处理大小batch size
  • C:等级类别数rank categories
  • Y i Y_i Yi:第i个图像的标签矩阵
  • Y . , j ′ ′ Y^{''}_{.,j} Y.,j′′:第 j j j个等级类别的标签矩阵
  • A ′ A^{'} A:经过 softmax 归一化处理的图像-文本相似性矩阵
  • A ′ ′ A^{''} A′′:经过 softmax 归一化处理的文本-图像相似性矩阵
  • K L ( ⋅ , ⋅ ) KL(⋅,⋅) KL(,):KL 散度(Kullback-Leibler divergence)

image-to-text loss图像到文本损失

归一化公式:
在这里插入图片描述
A ′ = [ a i , j ] A^{'}=[a_{i,j}] A=[ai,j]:softmax对A进行归一化

在这里插入图片描述
计算第 i i i行的归一化相似性矩阵 A i , . ′ A_{i,.}^{'} Ai,.与图像的标签矩阵 Y i , . ′ Y^{'}_{i,.} Yi,.之间的差异,然后再累加

text-to-image loss文本到图像损失

对于文本到图像的损失,可能存在零个或多个匹配项。
T:temperature 参数
KL divergence:KL 散度??

在这里插入图片描述
计算第 j j j列的归一化相似性矩阵 A . , j ′ ’ A_{.,j}^{'’} A.,j与图像的标签矩阵 Y . , j ′ ′ Y^{''}_{.,j} Y.,j′′之间的差异,然后再累加

KL散度

相对熵,衡量两个概率分布之间的差异或距离
在这里插入图片描述

4 实验

MAE:mean average error平均误差

  • 年龄估计任务
    在这里插入图片描述
    在这里插入图片描述

  • 美学估计任务
    在这里插入图片描述

  • 历史年代估计任务
    在这里插入图片描述

  • 不同插值方式实验
    在这里插入图片描述

5 总结

  • 论文提出了基于语言引导的有序回归范式
  • 现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题
  • 论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联
  • 为了利用语言先验,每个序数概念都被映射到相应的语言原型
  • 进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数的方式,保持了语言原型在语言特征空间中的顺序
  • 年龄估计历史图像年代估计图像美学评估这三个任务上的大量实验结果表明,OrdinalCLIP 提升了深度学习模型在年龄估计任务的少样本和分布偏移设置下的性能,在有序回归任务中获得了非常有竞争力的性能
  • 9
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值