宣传推介一下笔者的第一篇一作论文,已被ACMMM2024接收。本文面向组合图像检索(Composed Image Retrieval CIR)任务提出了SPN4CIR—基于大模型的正负例扩充技术,有效提升了对比学习性能。
论文题目:Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives
来源:MM2024/北航/笔者一作论文
方向:多模态检索
开源地址:https://github.com/BUAADreamer/SPN4CIR
任务介绍
考虑到大家可能不了解这个任务,先做个简要介绍。已经熟悉的读者可以直接跳过。
如下图,区别于图像检索(图搜图 Image Recognition/Retrieval)或者图文检索(文搜图 Text-to-Image Retrieval),组合图像检索是利用参考图像(Reference Image)和一段修改文本(Modified Text)作为组合输入对(Composed Query),搜索目标图像(Target Image)。标注好的(参考图像,修改文本,目标图像)组成了CIR任务的正例三元组。

动机
CIR任务的模型一般使用Dual Encoder的架构,利用对比学习训练。即对于组合输入对得到一个query表征,对目标图像得到target表征,让匹配的query和target表征互相拉近,不匹配的query和target表征彼此推远。
一般的批内对比学习可用如下公式表示(B代表批大小,一般为128左右;tau代表温度系数,一般为0.01左右)。

对比学习的性能依赖于正例和负例的数量,MoCo,CLIP都证明了这一点。而CIR中传统方法带来了两个问题:

最低0.47元/天 解锁文章
1615

被折叠的 条评论
为什么被折叠?



