【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理

最新推荐文章于 2024-07-22 14:10:07 发布

一个很菜的小猪

最新推荐文章于 2024-07-22 14:10:07 发布

阅读量1k

点赞数 9

分类专栏：提示学习文章标签：学习人工智能计算机视觉 prompt 深度学习迁移学习

本文链接：https://blog.csdn.net/weixin_51293984/article/details/136764264

版权

提示学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

本文介绍清华大学提出的OrdinalCLIP，一种基于序数提示的学习方法，用于解决语言引导的有序回归问题。该模型通过结合语言原型和图像特征，改进了现有方法对序数顺序的忽视和过拟合问题，在年龄估计等任务中展示了优秀性能。

摘要由CSDN通过智能技术生成

文章目录

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression
1 有序回归
2 现有方法缺陷
3.1 问题重新定义
3.2 语言原型
4 实验
5 总结

OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression

NeurIPS 2022
清华大学提出OrdinalCLIP
基于序数提示学习的语言引导有序回归

1 有序回归

解决类别之间有某种顺序关系的模型，比如年龄、收入等。考虑分类损失+不同类别之间的顺序关系，比如我们对人的年龄进行分类，真实年龄是0，分类成1或2的损失是相等的，但其实1岁比2岁更接近0岁，所以应该有着更小的损失。有序回归就是解决这个问题，除了考虑分类损失以外，还要考虑误分类的类别和真实类别之间的排序关系，排序更近的损失应该更小。

2 现有方法缺陷

现有方法通常将每个序数视为一个类别，但是这种方式忽视了序数的顺序信息。同时，因为学习到的序数概念主要来自训练集，此种方式容易过拟合训练标签，通常无法取得令人满意的性能。

3.1 问题重新定义

本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本，输入文本编码器得到每个序数获取语言原型嵌入。
在这里插入图片描述

3.2 语言原型

1 序数嵌入学习模块

论文提出的 OrdinalCLIP 包括 3 个模块：

序数嵌入学习模块
序数嵌入与上下文嵌入联合编码模块
语言原型特征-图片特征匹配模块

2 序数嵌入与上下文嵌入联合编码模块

在年龄估计任务中，将上下文提示词设计为 “a person at the age of [ $r_j$ ] ” for the rank [ $r_j$ ]
将句子的每个单词映射到一个 $512 - D$ 的单词嵌入向量
所有的词嵌入都被发送到文本编码器以获得文本嵌入

3 语言原型特征-图片特征匹配模块

可以使用任何流行的视觉主干作为图像编码器
在文本编码器参数固定的情况下，训练图像编码器，使图像特征与语言潜在空间对齐
对于一批图像X，归一化后的图像特征表示为 $I={I_i}^{B-1}_{I=0}$
- $i$ ：第i个图像
- $B$ ：批处理大小batch_size

4 相似度计算

内积计算两种模态之间的相似性得分
在这里插入图片描述

$a_{i,j}$ ：第 $i$ 个图像特征和第 $j$ 个语言原型之间的相似性得分
${I_i}$ ：图像特征
$p_j$ ：语言原型
$p_j^T$ ： $p_j$ 的转置
$a_{i,j}$ 通过图像特征 ${I_i}$ 与语言原型 $p_j$ 内积得到
相似性矩阵 $A=[a_{i,j}]$

5 总损失函数

在这里插入图片描述

B：批处理大小batch size
C：等级类别数rank categories
$Y_i$ ：第i个图像的标签矩阵
$Y^{''}_{.,j}$ ：第 $j$ 个等级类别的标签矩阵
$A^{'}$ ：经过 softmax 归一化处理的图像-文本相似性矩阵
$A^{''}$ ：经过 softmax 归一化处理的文本-图像相似性矩阵
$K L (\cdot, \cdot)$ ：KL 散度（Kullback-Leibler divergence）

image-to-text loss图像到文本损失

归一化公式：
在这里插入图片描述
$A^{'}=[a_{i,j}]$ ：softmax对A进行归一化

在这里插入图片描述
计算第 $i$ 行的归一化相似性矩阵 $A_{i,.}^{'}$ 与图像的标签矩阵 $Y^{'}_{i,.}$ 之间的差异，然后再累加

text-to-image loss文本到图像损失

对于文本到图像的损失，可能存在零个或多个匹配项。
T：temperature 参数
KL divergence：KL 散度？？

在这里插入图片描述
计算第 $j$ 列的归一化相似性矩阵 $A_{.,j}^{'’}$ 与图像的标签矩阵 $Y^{''}_{.,j}$ 之间的差异，然后再累加

KL散度

相对熵，衡量两个概率分布之间的差异或距离
在这里插入图片描述

4 实验

MAE：mean average error平均误差

年龄估计任务
美学估计任务
历史年代估计任务
不同插值方式实验

5 总结

论文提出了基于语言引导的有序回归范式
现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题
论文提出的OrdinalCLIP模型，它将每个序数类别与其源自CLIP文本编码器的语言概念相关联
为了利用语言先验，每个序数概念都被映射到相应的语言原型
进一步提出了可学习的序数提示词来显式学习序数的嵌入，通过保持秩嵌入的顺序以及插值生成序数的方式，保持了语言原型在语言特征空间中的顺序
在年龄估计、历史图像年代估计和图像美学评估这三个任务上的大量实验结果表明，OrdinalCLIP 提升了深度学习模型在年龄估计任务的少样本和分布偏移设置下的性能，在有序回归任务中获得了非常有竞争力的性能

一个很菜的小猪

关注

9
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理

本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本，输入文本编码器得到每个序数获取语言原型嵌入。论文提出了基于语言引导的有序回归范式现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题论文提出的OrdinalCLIP模型，它将每个序数类别与其源自CLIP文本编码器的语言概念相关联为了利用语言先验，每个序数概念都被映射到相应的语言原型进一步提出了可学习的序数提示词来显式学习序数的嵌入，通过保持秩嵌入的顺序以及插值生成序数。
复制链接

扫一扫

专栏目录