文章目录
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression
- NeurIPS 2022
- 清华大学提出OrdinalCLIP
- 基于序数提示学习的语言引导有序回归
1 有序回归
解决类别之间有某种顺序关系的模型,比如年龄、收入等。考虑分类损失+不同类别之间的顺序关系,比如我们对人的年龄进行分类,真实年龄是0,分类成1或2的损失是相等的,但其实1岁比2岁更接近0岁,所以应该有着更小的损失。有序回归就是解决这个问题,除了考虑分类损失以外,还要考虑误分类的类别和真实类别之间的排序关系,排序更近的损失应该更小。
2 现有方法缺陷
现有方法通常将每个序数视为一个类别,但是这种方式忽视了序数的顺序信息。同时,因为学习到的序数概念主要来自训练集,此种方式容易过拟合训练标签,通常无法取得令人满意的性能。
3.1 问题重新定义
本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。
3.2 语言原型
1 序数嵌入学习模块
论文提出的 OrdinalCLIP 包括 3 个模块:
- 序数嵌入学习模块
- 序数嵌入与上下文嵌入联合编码模块
- 语言原型特征-图片特征匹配模块
2 序数嵌入与上下文嵌入联合编码模块
- 在年龄估计任务中,将上下文提示词设计为 “a person at the age of [ r j r_j rj] ” for the rank [ r j r_j rj]
- 将句子的每个单词映射到一个 512 − D 512-D 512−D的单词嵌入向量
- 所有的词嵌入都被发送到文本编码器以获得文本嵌入
3 语言原型特征-图片特征匹配模块
- 可以使用任何流行的视觉主干作为图像编码器
- 在文本编码器参数固定的情况下,训练图像编码器,使图像特征与语言潜在空间对齐
- 对于一批图像X,归一化后的图像特征表示为
I
=
I
i
I
=
0
B
−
1
I={I_i}^{B-1}_{I=0}
I=IiI=0B−1
- i i i:第i个图像
- B B B:批处理大小batch_size
4 相似度计算
内积计算两种模态之间的相似性得分
- a i , j a_{i,j} ai,j:第 i i i个图像特征和第 j j j个语言原型之间的相似性得分
- I i {I_i} Ii:图像特征
- p j p_j pj:语言原型
- p j T p_j^T pjT: p j p_j pj的转置
- a i , j a_{i,j} ai,j通过图像特征 I i {I_i} Ii与语言原型 p j p_j pj内积得到
- 相似性矩阵 A = [ a i , j ] A=[a_{i,j}] A=[ai,j]
5 总损失函数
- B:批处理大小batch size
- C:等级类别数rank categories
- Y i Y_i Yi:第i个图像的标签矩阵
- Y . , j ′ ′ Y^{''}_{.,j} Y.,j′′:第 j j j个等级类别的标签矩阵
- A ′ A^{'} A′:经过 softmax 归一化处理的图像-文本相似性矩阵
- A ′ ′ A^{''} A′′:经过 softmax 归一化处理的文本-图像相似性矩阵
- K L ( ⋅ , ⋅ ) KL(⋅,⋅) KL(⋅,⋅):KL 散度(Kullback-Leibler divergence)
image-to-text loss图像到文本损失
归一化公式:
A
′
=
[
a
i
,
j
]
A^{'}=[a_{i,j}]
A′=[ai,j]:softmax对A进行归一化
计算第
i
i
i行的归一化相似性矩阵
A
i
,
.
′
A_{i,.}^{'}
Ai,.′与图像的标签矩阵
Y
i
,
.
′
Y^{'}_{i,.}
Yi,.′之间的差异,然后再累加
text-to-image loss文本到图像损失
对于文本到图像的损失,可能存在零个或多个匹配项。
T:temperature 参数
KL divergence:KL 散度??
计算第
j
j
j列的归一化相似性矩阵
A
.
,
j
′
’
A_{.,j}^{'’}
A.,j′’与图像的标签矩阵
Y
.
,
j
′
′
Y^{''}_{.,j}
Y.,j′′之间的差异,然后再累加
KL散度
相对熵,衡量两个概率分布之间的差异或距离
4 实验
MAE:mean average error平均误差
-
年龄估计任务
-
美学估计任务
-
历史年代估计任务
-
不同插值方式实验
5 总结
- 论文提出了基于语言引导的有序回归范式
- 现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题
- 论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联
- 为了利用语言先验,每个序数概念都被映射到相应的语言原型
- 进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数的方式,保持了语言原型在语言特征空间中的顺序
- 在年龄估计、历史图像年代估计和图像美学评估这三个任务上的大量实验结果表明,OrdinalCLIP 提升了深度学习模型在年龄估计任务的少样本和分布偏移设置下的性能,在有序回归任务中获得了非常有竞争力的性能